Site Reliability Engineer at MODO enhancing payment systems with strategic leadership and technical execution. Responsible for incident management, monitoring, and optimizing cloud infrastructure.
Responsibilities
Monitoreo y Observabilidad: Implementación de herramientas de monitoreo para detectar y solucionar problemas en tiempo real.
Desarrollo de dashboards y alertas para mantener la visibilidad sobre el rendimiento del sistema.
Gestión de incidencias: Establecimiento de procedimientos para la detección, respuesta y resolución de incidentes.
Capacitación en la gestión de crisis y en la mejora continua post-mortem.
Capacidad y rendimiento: Evaluación y optimización de la capacidad y el rendimiento de los sistemas para soportar el crecimiento de la carga.
Uso de herramientas de benchmarking y pruebas de carga.
Reliability Engineering: Implementación de prácticas de ingeniería de confiabilidad para aumentar la resiliencia de los sistemas.
Identificación y eliminación de puntos únicos de falla.
Seguridad en el Ciclo de Desarrollo del Software: Implementación de medidas de seguridad en el ciclo de vida del desarrollo de software (SDLC).
Monitoreo y respuesta a vulnerabilidades y amenazas.
Creación y mantenimiento de herramientas de soporte para ingeniería.
Optimización de Costos: Análisis y optimización de costos de infraestructura.
Implementación de políticas de utilización eficiente de recursos.
Requirements
Experiencia integrando y utilizando plataformas como Datadog (APM, Logs, Synthetics, SLOs), con foco en trazabilidad de incidentes y tuning de alertas.
Personas con experiencia en desarrollo (preferentemente Node) y en trabajar en entornos cloud, idealmente con un perfil backend en AWS.
Experiencia en la administración y orquestación de contenedores con Kubernetes, valorando especialmente el uso de Helm.
Habilidad para diagnosticar, dar seguimiento, y resolver problemas en aplicaciones, con un enfoque en soporte aplicativo.
Capacidad para moverse en escenarios cambiantes, con una mentalidad orientada a resultados y atención al detalle.
SRE responsible for ensuring reliability and performance of IT systems at a digital transformation company specializing in public sector efficiency. Collaborating on system health, incident response, and automation tasks.
DevOps Senior role at Beyond Soluções managing CI/CD for .NET and Kubernetes applications. Collaborating on cloud solutions while fostering a culture of innovation and quality.
Senior Software Engineer at PayPal managing cloud infrastructure and DevOps solutions. Delivering complete SDLC solutions and guiding engineering teams for scalable and reliable services.
Senior Site Reliability Engineer at Diligent leading reliability, automation, and observability across cloud infrastructure. Build tools for incident response and enhance performance in fast - paced environments.
Perception Deployment Engineer deploying deep learning models on embedded systems at Caterpillar. Collaborating with cross - functional teams for integration and optimization of perception modules in vehicles.
Principal Site Reliability Engineer at AT&T required to design scalable solutions for critical operations with minimal downtime. Collaborating with teams to monitor and improve system performance in cloud environments.
DevOps Engineer managing AI SaaS infrastructure at a high - growth European company. Supporting AI model deployment and ensuring platform security and compliance with multiple systems integration.
Engineering Manager leading teams for observability platforms at LexisNexis. Owns operational excellence across software delivery lifecycle in Raleigh, NC.
Reliability Engineer optimizing site facility infrastructure and utility systems at Roche. Conducting root cause analyses and developing maintenance plans to enhance reliability and efficiency.
DevOps SME designing, implementing, and operating multi - cloud platforms for The Missing Link. Collaborating with engineering, security, and operations teams while embedding DevOps best practices.