Empleos actuales relacionados con Platform/site Reliability Engineer - Madrid - Izertis

  • Site Reliability Engineer

    hace 3 semanas


    Madrid, España Switch Tech Talent A tiempo completo

    Role: Site Reliability Engineer Location:Barcelona/Hybrid (3 days a week in office) Salary:up to €85,000 per annum Key Skills:AWS, IaC, Docker, ScriptingAs a Site Reliability Engineer you will be at the forefront of maintaining robust, scalable, and secure cloud solutions that power this cutting-edge e-commerce platform. Your expertise will ensure...


  • Madrid, España K2 Partnering Solutions A tiempo completo

    For a prestigiousManufacturing companywe are looking for aGCP Platform Site Reliability Engineer.Location:Barcelona (Hybrid – 2 days/week in the office) Contract Type:Permanent, full-timeWe’re looking for aSenior GCP Platform Site Reliability Engineerto join a global tech center inBarcelona , supporting millions of customers and thousands of stores...


  • Madrid, España Okta A tiempo completo

    As a Site Reliability Engineer you will champion all things pertaining to reliability at Okta for our Customer Identity Cloud (formerly Auth0). Working closely with the product engineers, quality engineers, platform engineers and architecture teams, your primary focus will be on ensuring production systems remain operational at all times, while continually...

  • Site Reliability Engineer

    hace 4 semanas


    Madrid, España K2 Partnering Solutions A tiempo completo

    We are looking for a Senior Site Reliability Engineer to join a leading company’s Platform Engineering team . You will focus on building scalable, reliable systems and improving platform performance through automation and solid engineering practices.Permanent positionLocation: Remote in SpainLanguage: EnglishResponsibilities- Design, develop, and maintain...

  • Site Reliability Engineer

    hace 3 semanas


    Madrid, España K2 Partnering Solutions A tiempo completo

    We are looking for a Senior Site Reliability Engineer to join a leading company’s Platform Engineering team . You will focus on building scalable, reliable systems and improving platform performance through automation and solid engineering practices.¿Tiene su CV preparado? Si es así y confía en que este es el puesto ideal para usted, asegúrese de...


  • Madrid, España Ebury A tiempo completo

    Ebury is a hyper-growth FinTech firm, named in 2021 as one of the top FinTechs to work for by Glassdoor and AltFi. We offer a range of products including FX risk management, trade finance, currency accounts, international payments and API integration. **Site Reliability Engineer / Platform Engineer** **Ebury Madrid Office - Hybrid: 4 days in the office, 1...


  • Madrid, España INGENIEROJOB A tiempo completo

    Una empresa de consultoría busca un Site Reliability Engineer para asegurar la disponibilidad y mejora de sus aplicaciones críticas. Se requiere un título en Informática o Ingeniería, y experiencia en sistemas críticas y programación en Java. Ofrecemos un entorno de trabajo híbrido, 27 días de vacaciones al año y un programa de bienestar para...


  • Madrid, España Trust In SODA A tiempo completo

    Senior Site Reliability Engineer | Spain (Hybrid)An opportunity to join a high growth, late stage technology company operating at significant scale. The business supports thousands of customers globally and is investing heavily in reliability, platform maturity and engineering quality as it continues to grow. This is atrue senior SRE rolefor someone who has...


  • Madrid, España Trust In SODA A tiempo completo

    Senior Site Reliability Engineer | Spain (Hybrid)An opportunity to join a high growth, late stage technology company operating at significant scale. The business supports thousands of customers globally and is investing heavily in reliability, platform maturity and engineering quality as it continues to grow.This is a true senior SRE role for someone who has...


  • Madrid, España CrowdStrike A tiempo completo

    Join to apply for the Site Reliability Engineer role at CrowdStrike.As a global leader in cybersecurity, CrowdStrike protects the people, processes and technologies that drive modern organizations. Since 2011, our mission hasn’t changed — we’re here to stop breaches, and we’ve redefined modern security with the world’s most advanced AI‑native...

Platform/site Reliability Engineer

hace 2 semanas


Madrid, España Izertis A tiempo completo

**Descripción**:
Desde Izertis nos encontramos en búsqueda de un/a Platform/Site Reliability Engineer (SRE) responsable de garantizar la confiabilidad, rendimiento y disponibilidad de nuestras plataformas críticas: Kong (API Management), Solace (Messaging), Mulesoft (iPaaS) e Informatica (ETL).

Buscamos a alguien con un profundo entendimiento de sistemas distribuidos, tecnologías cloud y pasión por construir plataformas resilientes y escalables.

Responsabilidades principales**

** Confiabilidad y rendimiento de plataformas (Enfoque SRE)**
- Garantizar la confiabilidad y disponibilidad de las plataformas Kong, Solace, Mulesoft e Informatica, aplicando los principios SRE de automatización, monitoreo y mejora continua.
- Identificar y resolver proactivamente posibles incidentes antes de que impacten los entornos productivos, usando análisis predictivo y basado en datos.
- Desarrollar e implementar sistemas de monitoreo y alertamiento para mantener la salud y el rendimiento de las plataformas.
- Realizar revisiones post-incidente junto al equipo de soporte, enfocándose en la mejora continua.
- Ejecutar análisis de causa raíz (RCA) e implementar medidas preventivas automatizadas.
- Colaborar con equipos de desarrollo, operaciones y seguridad para garantizar operaciones fluidas y promover una cultura compartida de confiabilidad.
- Gestionar y asegurar el cumplimiento de los SLAs y SLOs de las plataformas, proponiendo mejoras constantes.
- Evaluar e implementar nuevas herramientas o tecnologías que mejoren la eficiencia y confiabilidad, manteniéndose actualizado con las últimas tendencias en SRE.
**️ Ingeniería del caos y resiliencia**
- Diseñar, implementar y ejecutar experimentos de ingeniería del caos para detectar vulnerabilidades y puntos débiles en las plataformas de integración.
- Desarrollar y mantener un marco de resiliencia que permita probar de forma sistemática el comportamiento ante fallos.
- Analizar los resultados y colaborar con los equipos de ingeniería para fortalecer la resistencia del sistema.
- Participar en el diseño de sistemas tolerantes a fallos y auto-recuperables.

Recuperación ante desastres y continuidad del negocio**
- Colaborar con el equipo DevOps en el desarrollo, mantenimiento y pruebas de planes de recuperación ante desastres (DRP) para las plataformas de integración.
- Participar en ejercicios de DR para validar la efectividad de los planes y proponer mejoras.
- Asegurar la alineación de los planes de DR con los requisitos de continuidad del negocio.
- Implementar y mantener procedimientos de respaldo y recuperación para componentes críticos.

Gestión de dependencias**
- Analizar las dependencias upstream y downstream de las plataformas de integración (p. ej. API Gateway, servicios backend) y evaluar su impacto en la confiabilidad general.
- Implementar monitoreo y alertas para detectar problemas en sistemas dependientes.
- Colaborar con otros equipos para optimizar la confiabilidad de dichos sistemas.
- Diseñar estrategias de tolerancia a fallos (circuit breakers, retries, fallbacks, etc.).

Colaboración y comunicación**
- Trabajar estrechamente con el equipo de soporte para resolver incidencias relacionadas con las plataformas y mejorar los procesos operativos.
- Proporcionar herramientas, documentación y conocimientos técnicos que permitan una resolución eficiente de incidentes.

Requisitos**
- Experiência sólida en Site Reliability Engineering (SRE), DevOps o roles similares.
- Conocimientos profundos en sistemas distribuidos, cloud computing, monitoreo y automatización.
- Experiência con Kong, Solace, Mulesoft o Informatica (deseable experiência en más de una).
- Habilidades para el análisis de incidentes, RCA, gestión de SLAs/SLOs y automatización de procesos.
- Conocimiento de prácticas de disaster recovery, ingeniería del caos y resiliencia operativa.
- Excelente comunicación y capacidad para trabajar en equipos multidisciplinarios.

Ofrecemos**
- Entorno colaborativo, ágil y orientado a la innovación.
- Oportunidad de trabajar con tecnologías de integración de clase mundial.
- Formación continua y oportunidades de crecimiento profesional.
- Modalidad flexible (remoto/híbrido).

QUIÉNES SOMOS?
- Ubicación- ** Madrid**
- Categoría- ** Informática y telecomunicaciones**
- Subcategoría- ** Programación**
- Sector- ** Servicios y tecnología de la información**
- Jornada laboral- ** Completa**
- Modalidad de trabajo- ** Mixto (Presencial y Teletrabajo)**
- Nível profesional- ** Empleado**
- Departamento- ** Informática