Ingeniero de Observabilidad

El día a día del rol se centrará en:

  • Visualización y Monitoreo: Diseñar y construir tableros (dashboards) operativos y ejecutivos en Grafana y Kibana alineados a métricas de negocio y objetivos de nivel de servicio (SLOs/SLAs).
  • Gestión de Datos e Ingesta: Definir, configurar y optimizar pipelines de ingesta de datos hacia Elastic, Prometheus y otros componentes del stack. Ejecutar el tuning de índices, shards y políticas de retención para controlar costos y mejorar el desempeño.
  • Alertamiento: Implementar alertas accionables con umbrales dinámicos y rutas de escalamiento utilizando Alertmanager, Grafana Alerting o Watcher.
  • Estandarización y Cultura: Crear runbooks, plantillas reutilizables de dashboards e instrumentación con OpenTelemetry. Capacitar a los equipos de desarrollo, operaciones y arquitectura en buenas prácticas de observabilidad.
  • Análisis y Optimización: Optimizar consultas para reducir costos de almacenamiento y mejorar tiempos de respuesta. Colaborar en la reducción de los tiempos de detección (MTTD) y resolución (MTTR) de incidentes mediante la correlación de telemetría (MELT).

Para avanzar en el proceso, es necesario cumplir con los siguientes puntos:

  • Formación Académica: Graduado universitario en Ingeniería en Sistemas, Ciencias de la Computación, Informática o carreras afines.
  • Experiencia Mínima: Al menos 3 años en roles de monitoreo, observabilidad, operación de plataformas, soporte avanzado o ingeniería de confiabilidad (SRE) sobre aplicaciones e infraestructura.
  • Experiencia Comprobada: Diseño y construcción de dashboards, análisis de telemetría, configuración de alertas y administración de logs en entornos corporativos.
  • Herramientas Core (Dominio Avanzado): Grafana, Kibana, Elastic Stack (ELK), Prometheus, Loki y Tempo.
  • Lenguajes de Consulta (Nivel Experto): PromQL, LogQL, KQL y SQL para análisis de series de tiempo y telemetría.
  • Entornos Tecnológicos: Trabajo con entornos Cloud (preferentemente Azure) y plataformas de contenedores como Kubernetes u OpenShift.
  • Instrumentación: Conocimiento sólido de OpenTelemetry para instrumentación de aplicaciones y servicios.