Ingeniero de Observabilidad
El día a día del rol se centrará en:
- Visualización y Monitoreo: Diseñar y construir tableros (dashboards) operativos y ejecutivos en Grafana y Kibana alineados a métricas de negocio y objetivos de nivel de servicio (SLOs/SLAs).
- Gestión de Datos e Ingesta: Definir, configurar y optimizar pipelines de ingesta de datos hacia Elastic, Prometheus y otros componentes del stack. Ejecutar el tuning de índices, shards y políticas de retención para controlar costos y mejorar el desempeño.
- Alertamiento: Implementar alertas accionables con umbrales dinámicos y rutas de escalamiento utilizando Alertmanager, Grafana Alerting o Watcher.
- Estandarización y Cultura: Crear runbooks, plantillas reutilizables de dashboards e instrumentación con OpenTelemetry. Capacitar a los equipos de desarrollo, operaciones y arquitectura en buenas prácticas de observabilidad.
- Análisis y Optimización: Optimizar consultas para reducir costos de almacenamiento y mejorar tiempos de respuesta. Colaborar en la reducción de los tiempos de detección (MTTD) y resolución (MTTR) de incidentes mediante la correlación de telemetría (MELT).
Para avanzar en el proceso, es necesario cumplir con los siguientes puntos:
- Formación Académica: Graduado universitario en Ingeniería en Sistemas, Ciencias de la Computación, Informática o carreras afines.
- Experiencia Mínima: Al menos 3 años en roles de monitoreo, observabilidad, operación de plataformas, soporte avanzado o ingeniería de confiabilidad (SRE) sobre aplicaciones e infraestructura.
- Experiencia Comprobada: Diseño y construcción de dashboards, análisis de telemetría, configuración de alertas y administración de logs en entornos corporativos.
- Herramientas Core (Dominio Avanzado): Grafana, Kibana, Elastic Stack (ELK), Prometheus, Loki y Tempo.
- Lenguajes de Consulta (Nivel Experto): PromQL, LogQL, KQL y SQL para análisis de series de tiempo y telemetría.
- Entornos Tecnológicos: Trabajo con entornos Cloud (preferentemente Azure) y plataformas de contenedores como Kubernetes u OpenShift.
- Instrumentación: Conocimiento sólido de OpenTelemetry para instrumentación de aplicaciones y servicios.