Ingeniero Sr. de Operaciones y Monitoreo
Acerca de GBM
En GBM estamos seguros de que invertir es la única forma de conseguir libertad y un mejor futuro, y somos orgullosamente uno de los principales promotores de inversión a nivel nacional e internacional. Trabajamos día a día para crear las mejores soluciones institucionales y empresariales y, además, para construir de la mano de todos nuestros expertos la plataforma de inversión que va a cambiar la realidad de millones de personas al ofrecerles acceso a la inversión de manera segura, inteligente y simple: GBM App. Estamos convencidos de que, a través de tecnología y productos de inversión de primer nivel, podemos impulsar el potencial financiero de individuos, empresas e instituciones mediante nuestras diferentes líneas de negocio.
Objetivo del puesto
Asegurar la disponibilidad, estabilidad y correcto funcionamiento de los canales y servicios digitales mediante el monitoreo continuo, la detección oportuna de incidentes y la coordinación eficiente de su resolución, minimizando el impacto en la experiencia del usuario y en la operación del negocio.
Este rol es clave para la gestión operativa de los servicios digitales, actuando como punto de control y coordinación entre los equipos técnicos, la Mesa de Servicio y los proveedores involucrados en la atención de incidentes y la continuidad de los servicios. Su enfoque permite identificar desviaciones de forma proactiva, priorizar eventos críticos y asegurar tiempos de respuesta alineados a los niveles de servicio definidos.
Requisitos
- Licenciatura o Ingeniería terminada
- Experiencia al menos 3-5 años en atención de incidentes de nmegocio
- Experiencia en herramientas de gestión de incidentes y tickets (ej. Jira, ServiceNow o similares), para el registro, seguimiento y documentación de incidentes y problemas.
- Administración de Statuspage: configuración del sitio, gestión de incidentes, definición de suscripciones y creación de alertas vía correo, así como integración y automatización de notificaciones con Microsoft Teams.
- Experiencia en herramientas de monitoreo y observabilidad como Elastic (Elasticsearch, APM, Logs), AWS CloudWatch (métricas, logs, alarmas y dashboards), Mixpanel.
- Experiencia en el uso de APM para análisis de desempeño y diagnóstico de incidentes, incluyendo la capacidad de realizar drilldown desde alertas hacia trazas, logs y métricas para identificar cuellos de botella, errores y fallas en servicios distribuidos.
- Conocimiento sólido en diagnóstico de incidentes basado en códigos de error y comportamiento de servicios (ej. HTTP 5xx como 500, 502, 503, 504), identificando causas potenciales como caídas de servicio, timeouts, saturación o problemas de integración.
- Experiencia en SQL Server: consulta, análisis y explotación de datos para soporte operativo e investigación de incidentes.
Funciones principales
- Monitorear en tiempo real la disponibilidad, desempeño y salud de aplicaciones web, móviles, APIs, servicios backend e infraestructura cloud mediante herramientas de observabilidad (métricas, logs y trazas).
- Supervisar y analizar dashboards operativos (uptime, latencia, tasa de errores, volumetría y transaccionalidad), identificando desviaciones y riesgos potenciales de forma proactiva.
- Detectar, validar y clasificar incidentes con base en su criticidad e impacto al negocio y a la experiencia del usuario.
- Coordinar y escalar oportunamente incidentes a los equipos correspondientes (Infraestructura, Desarrollo, DevOps, Seguridad), asegurando una atención ágil bajo esquemas definidos.
- Dar seguimiento end-to-end a los incidentes hasta su resolución, asegurando el cumplimiento de SLAs/OLAs, calidad en la comunicación y correcta documentación del ciclo de vida del incidente.
- Mantener comunicación continua con stakeholders técnicos y de negocio durante incidentes relevantes, proporcionando actualizaciones claras, oportunas y trazables.
- Generar reportes periódicos y dashboards ejecutivos sobre desempeño operativo, disponibilidad, incidentes y tendencias, habilitando la toma de decisiones informadas.
- Analizar incidentes recurrentes y participar en procesos de Problem Management y Root Cause Analysis (RCA), proponiendo acciones correctivas y preventivas.
- Proponer e implementar mejoras en monitoreo, alertamiento y automatización de procesos operativos, incrementando la eficiencia y reduciendo tiempos de respuesta.
- Asegurar la correcta integración operativa de nuevos servicios y releases, validando que cuenten con monitoreo, alertamiento, runbooks y criterios de soporte definidos.
Competencias
- Trabajo en equipo
- Resolución de palabras
- Orientación a resultados
- Proactividad y aprendizaje continuo
- Comunicación efectiva
- Organización y gestión del trabajo
¡Únete al equipo!*
*Para postularte es indispensable que leas y aceptes nuestro Aviso de Privacidad para Candidatos que se alinea a la ley de protección de datos personales y especifica el uso que le daremos a los mismos únicamente con fines de reclutamiento.
#LI-DR1