About the role

Site Reliability Engineer at MODO enhancing payment systems with strategic leadership and technical execution. Responsible for incident management, monitoring, and optimizing cloud infrastructure.

Responsibilities

Monitoreo y Observabilidad: Implementación de herramientas de monitoreo para detectar y solucionar problemas en tiempo real.
Desarrollo de dashboards y alertas para mantener la visibilidad sobre el rendimiento del sistema.
Gestión de incidencias: Establecimiento de procedimientos para la detección, respuesta y resolución de incidentes.
Capacitación en la gestión de crisis y en la mejora continua post-mortem.
Capacidad y rendimiento: Evaluación y optimización de la capacidad y el rendimiento de los sistemas para soportar el crecimiento de la carga.
Uso de herramientas de benchmarking y pruebas de carga.
Reliability Engineering: Implementación de prácticas de ingeniería de confiabilidad para aumentar la resiliencia de los sistemas.
Identificación y eliminación de puntos únicos de falla.
Seguridad en el Ciclo de Desarrollo del Software: Implementación de medidas de seguridad en el ciclo de vida del desarrollo de software (SDLC).
Monitoreo y respuesta a vulnerabilidades y amenazas.
Creación y mantenimiento de herramientas de soporte para ingeniería.
Optimización de Costos: Análisis y optimización de costos de infraestructura.
Implementación de políticas de utilización eficiente de recursos.

Experiencia integrando y utilizando plataformas como Datadog (APM, Logs, Synthetics, SLOs), con foco en trazabilidad de incidentes y tuning de alertas.
Personas con experiencia en desarrollo (preferentemente Node) y en trabajar en entornos cloud, idealmente con un perfil backend en AWS.
Experiencia en la administración y orquestación de contenedores con Kubernetes, valorando especialmente el uso de Helm.
Habilidad para diagnosticar, dar seguimiento, y resolver problemas en aplicaciones, con un enfoque en soporte aplicativo.
Capacidad para moverse en escenarios cambiantes, con una mentalidad orientada a resultados y atención al detalle.
Docker, Kubernetes, Istio, AWS EC2, AWS EKS, AWS RDS, AWS SQS/SES, Cloudfront, AWS S3, Helm.
Experiencia en flujos de CI/CD en GitHub Actions y gestión de infraestructura multi-entorno con Terragrunt.
Conocimientos en gobernanza de alertas, burn rate múltiple y dashboards de salud por dominio o producto.
Conocimientos en escalabilidad y elasticidad sobre AWS y aplicaciones hosteadas en kubernetes.
Familiaridad con prácticas de FinOps para seguimiento y optimización de costos en AWS.

10 días hábiles de vacaciones + 5 días MODO.
Prepaga para vos y tu grupo familiar.
Reintegro en app MODO para almuerzos y traslado.
Membresía en Gympass y descuento en Sport Club para actividad física.
Licencias extendidas (por matrimonio, maternidad, paternidad y otras).
Plataforma de capacitaciones y descuentos en universidades para perfeccionar y expandir tus conocimientos.
Reintegro por gastos de Internet.
Día de cumpleaños libre y medio día por cumpleaños de hijos/as.
Actividades de team building.
Club de Beneficios.
Posibilidad de desarrollarte en un ambiente flexible, dinámico y en pleno crecimiento.