Ingeniero Sr. de Operaciones y Monitoreo

Acerca de GBM

En GBM estamos seguros de que invertir es la única forma de conseguir libertad y un mejor futuro, y somos orgullosamente uno de los principales promotores de inversión a nivel nacional e internacional. Trabajamos día a día para crear las mejores soluciones institucionales y empresariales y, además, para construir de la mano de todos nuestros expertos la plataforma de inversión que va a cambiar la realidad de millones de personas al ofrecerles acceso a la inversión de manera segura, inteligente y simple: GBM App. Estamos convencidos de que, a través de tecnología y productos de inversión de primer nivel, podemos impulsar el potencial financiero de individuos, empresas e instituciones mediante nuestras diferentes líneas de negocio.

Objetivo del puesto

Asegurar la disponibilidad, estabilidad y correcto funcionamiento de los canales y servicios digitales mediante el monitoreo continuo, la detección oportuna de incidentes y la coordinación eficiente de su resolución, minimizando el impacto en la experiencia del usuario y en la operación del negocio.

Este rol es clave para la gestión operativa de los servicios digitales, actuando como punto de control y coordinación entre los equipos técnicos, la Mesa de Servicio y los proveedores involucrados en la atención de incidentes y la continuidad de los servicios. Su enfoque permite identificar desviaciones de forma proactiva, priorizar eventos críticos y asegurar tiempos de respuesta alineados a los niveles de servicio definidos.

Requisitos

Licenciatura o Ingeniería terminada
Experiencia al menos 3-5 años en atención de incidentes de nmegocio
Experiencia en herramientas de gestión de incidentes y tickets (ej. Jira, ServiceNow o similares), para el registro, seguimiento y documentación de incidentes y problemas.
Administración de Statuspage: configuración del sitio, gestión de incidentes, definición de suscripciones y creación de alertas vía correo, así como integración y automatización de notificaciones con Microsoft Teams.
Experiencia en herramientas de monitoreo y observabilidad como Elastic (Elasticsearch, APM, Logs), AWS CloudWatch (métricas, logs, alarmas y dashboards), Mixpanel.
Experiencia en el uso de APM para análisis de desempeño y diagnóstico de incidentes, incluyendo la capacidad de realizar drilldown desde alertas hacia trazas, logs y métricas para identificar cuellos de botella, errores y fallas en servicios distribuidos.
Conocimiento sólido en diagnóstico de incidentes basado en códigos de error y comportamiento de servicios (ej. HTTP 5xx como 500, 502, 503, 504), identificando causas potenciales como caídas de servicio, timeouts, saturación o problemas de integración.
Experiencia en SQL Server: consulta, análisis y explotación de datos para soporte operativo e investigación de incidentes.

Funciones principales

Monitorear en tiempo real la disponibilidad, desempeño y salud de aplicaciones web, móviles, APIs, servicios backend e infraestructura cloud mediante herramientas de observabilidad (métricas, logs y trazas).
Supervisar y analizar dashboards operativos (uptime, latencia, tasa de errores, volumetría y transaccionalidad), identificando desviaciones y riesgos potenciales de forma proactiva.
Detectar, validar y clasificar incidentes con base en su criticidad e impacto al negocio y a la experiencia del usuario.
Coordinar y escalar oportunamente incidentes a los equipos correspondientes (Infraestructura, Desarrollo, DevOps, Seguridad), asegurando una atención ágil bajo esquemas definidos.
Dar seguimiento end-to-end a los incidentes hasta su resolución, asegurando el cumplimiento de SLAs/OLAs, calidad en la comunicación y correcta documentación del ciclo de vida del incidente.
Mantener comunicación continua con stakeholders técnicos y de negocio durante incidentes relevantes, proporcionando actualizaciones claras, oportunas y trazables.
Generar reportes periódicos y dashboards ejecutivos sobre desempeño operativo, disponibilidad, incidentes y tendencias, habilitando la toma de decisiones informadas.
Analizar incidentes recurrentes y participar en procesos de Problem Management y Root Cause Analysis (RCA), proponiendo acciones correctivas y preventivas.
Proponer e implementar mejoras en monitoreo, alertamiento y automatización de procesos operativos, incrementando la eficiencia y reduciendo tiempos de respuesta.
Asegurar la correcta integración operativa de nuevos servicios y releases, validando que cuenten con monitoreo, alertamiento, runbooks y criterios de soporte definidos.

Competencias

Trabajo en equipo
Resolución de palabras
Orientación a resultados
Proactividad y aprendizaje continuo
Comunicación efectiva
Organización y gestión del trabajo

¡Únete al equipo!*

*Para postularte es indispensable que leas y aceptes nuestro Aviso de Privacidad para Candidatos que se alinea a la ley de protección de datos personales y especifica el uso que le daremos a los mismos únicamente con fines de reclutamiento.

#LI-DR1