Monitoring Engeneer

Требования

  • Сейчас мониторингом продукта занимается команда DevOps. Работа по отслеживанию и предотвращению ошибок частично автоматизирована и описана инструкциями. Тебе предстоит забрать часть задач на себя и помочь выстроить процесс работы.
  • Нашим продуктом пользуются по всему миру больше 3,5 млн пользователей, нагрузка на систему происходит круглосуточно. Оповещения о сбоях или ошибках могут приходить в ночное время. Поэтому нам важно чтобы твой часовой пояс совпадал с временем на Дальнем Востоке (Владивосток, Хабаровск), Западе (Калининград) или Сибири (Томск, Новосибирск, Иркутск) или тебе должно быть комфортно работать в ночное время суток по московскому времени.
  • Тебе предстоит отслеживать алерты об ошибках в Prometheus, ELK, Grafana, Alertmanager. Круто, если у тебя уже есть опыт работы с этими системами.
  • Тебе знаком инструмент PagerDuty и Incident Management в целом.
  • Ты не представляешь как можно работать без качественных инструкций и любишь их писать. Спойлер — мы тоже :)
  • Работать будет еще интересней, если у тебя уже есть опыт работы системным администратором или специалистом технической поддержки. При этом мы готовы взять человека с минимальным опытом и интересом к теме мониторинга, у нас есть все ресурсы, чтобы учить и развивать тебя.
  • Мы ценим аккуратность и педантичность к представлению результатов. Здорово, если ты разделяешь наш подход.

Задачи

  • У тебя будет возможность обеспечить высокий uptime системы, реагируя на алерты согласно инструкциям. В том числе сможешь самостоятельно описывать инструкции, по которым потом будет работать вся команда.
  • Ты сможешь предлагать любые улучшения мониторинга для системы, приложений, кода и помогать внедрять их.
  • Вместе с командой тебе предстоит разработать систему алертов и реакции на них, чтобы ты, DevOps или разработчики могли реагировать самостоятельно.
  • Будешь много общаться с Customer Support командой (поддержка пользователей), чтобы построить понятный, воспроизводимый процесс реакции и решения инцидентов.
  • Самостоятельно и с помощью DevOps-команды настраивать сбор метрик с инфраструктурного ПО, а также приложений. (Prometheus, Alertmanager, etc).

Similar jobs