Ingeniero Sr. de Operaciones y Monitoreo

Acerca de GBM

En GBM estamos seguros de que invertir es la única forma de conseguir libertad y un mejor futuro, y somos orgullosamente uno de los principales promotores de inversión a nivel nacional e internacional. Trabajamos día a día para crear las mejores soluciones institucionales y empresariales y, además, para construir de la mano de todos nuestros expertos la plataforma de inversión que va a cambiar la realidad de millones de personas al ofrecerles acceso a la inversión de manera segura, inteligente y simple: GBM App. Estamos convencidos de que, a través de tecnología y productos de inversión de primer nivel, podemos impulsar el potencial financiero de individuos, empresas e instituciones mediante nuestras diferentes líneas de negocio.



Objetivo del puesto

Asegurar la disponibilidad, estabilidad y correcto funcionamiento de los canales y servicios digitales mediante el monitoreo continuo, la detección oportuna de incidentes y la coordinación eficiente de su resolución, minimizando el impacto en la experiencia del usuario y en la operación del negocio.

Este rol es clave para la gestión operativa de los servicios digitales, actuando como punto de control y coordinación entre los equipos técnicos, la Mesa de Servicio y los proveedores involucrados en la atención de incidentes y la continuidad de los servicios. Su enfoque permite identificar desviaciones de forma proactiva, priorizar eventos críticos y asegurar tiempos de respuesta alineados a los niveles de servicio definidos.



Requisitos

  • Licenciatura o Ingeniería terminada
  • Experiencia al menos 3-5 años en atención de incidentes de nmegocio
  • Experiencia en herramientas de gestión de incidentes y tickets (ej. Jira, ServiceNow o similares), para el registro, seguimiento y documentación de incidentes y problemas.
  • Administración de Statuspage: configuración del sitio, gestión de incidentes, definición de suscripciones y creación de alertas vía correo, así como integración y automatización de notificaciones con Microsoft Teams.
  • Experiencia en herramientas de monitoreo y observabilidad como Elastic (Elasticsearch, APM, Logs), AWS CloudWatch (métricas, logs, alarmas y dashboards), Mixpanel.
  • Experiencia en el uso de APM para análisis de desempeño y diagnóstico de incidentes, incluyendo la capacidad de realizar drilldown desde alertas hacia trazas, logs y métricas para identificar cuellos de botella, errores y fallas en servicios distribuidos.
  • Conocimiento sólido en diagnóstico de incidentes basado en códigos de error y comportamiento de servicios (ej. HTTP 5xx como 500, 502, 503, 504), identificando causas potenciales como caídas de servicio, timeouts, saturación o problemas de integración.
  • Experiencia en SQL Server: consulta, análisis y explotación de datos para soporte operativo e investigación de incidentes.



Funciones principales

  • Monitorear en tiempo real la disponibilidad, desempeño y salud de aplicaciones web, móviles, APIs, servicios backend e infraestructura cloud mediante herramientas de observabilidad (métricas, logs y trazas).
  • Supervisar y analizar dashboards operativos (uptime, latencia, tasa de errores, volumetría y transaccionalidad), identificando desviaciones y riesgos potenciales de forma proactiva.
  • Detectar, validar y clasificar incidentes con base en su criticidad e impacto al negocio y a la experiencia del usuario.
  • Coordinar y escalar oportunamente incidentes a los equipos correspondientes (Infraestructura, Desarrollo, DevOps, Seguridad), asegurando una atención ágil bajo esquemas definidos.
  • Dar seguimiento end-to-end a los incidentes hasta su resolución, asegurando el cumplimiento de SLAs/OLAs, calidad en la comunicación y correcta documentación del ciclo de vida del incidente.
  • Mantener comunicación continua con stakeholders técnicos y de negocio durante incidentes relevantes, proporcionando actualizaciones claras, oportunas y trazables.
  • Generar reportes periódicos y dashboards ejecutivos sobre desempeño operativo, disponibilidad, incidentes y tendencias, habilitando la toma de decisiones informadas.
  • Analizar incidentes recurrentes y participar en procesos de Problem Management y Root Cause Analysis (RCA), proponiendo acciones correctivas y preventivas.
  • Proponer e implementar mejoras en monitoreo, alertamiento y automatización de procesos operativos, incrementando la eficiencia y reduciendo tiempos de respuesta.
  • Asegurar la correcta integración operativa de nuevos servicios y releases, validando que cuenten con monitoreo, alertamiento, runbooks y criterios de soporte definidos.


Competencias

  • Trabajo en equipo
  • Resolución de palabras
  • Orientación a resultados
  • Proactividad y aprendizaje continuo
  • Comunicación efectiva
  • Organización y gestión del trabajo




¡Únete al equipo!*






*Para postularte es indispensable que leas y aceptes nuestro Aviso de Privacidad para Candidatos que se alinea a la ley de protección de datos personales y especifica el uso que le daremos a los mismos únicamente con fines de reclutamiento.


#LI-DR1