Руководитель группы SRE дисковых сервисов в Яндекс 360

Яндекс 360 — это Диск, Почта, Документы, Календарь, Телемост, Заметки и другие сервисы с общей многомиллионной аудиторией. Мы ищем опытного руководителя команды SRE. Ваша задача — обеспечить надёжность и доступность наших дисковых сервисов, выстроить эффективные процессы и помочь команде расти.Управление командой
Вам предстоит руководить командой из семи SRE-инженеров: ставить задачи, распределять нагрузку, контролировать сроки и качество работы. Вы будете проводить регулярные встречи 1–1, оценивать эффективность сотрудников и формировать планы их развития, создавать продуктивную рабочую атмосферу и разрешать конфликтные ситуации. Разработка стратегии надёжности
Вам нужно будет формировать и внедрять стратегию SRE для дисковых сервисов Яндекс 360, оптимизировать процессы мониторинга, реагирования на инциденты и пост инцидентного анализа. Вы будете внедрять практики DevOps/SRE, согласовывать подходы и решения с другими командами (разработки, эксплуатации, безопасности). Техническая работа
Вы будете участвовать в проектировании архитектуры сервисов с фокусом на надёжность, масштабируемость и отказоустойчивость, анализировать метрики надёжности и устранять узкие места. Также предстоит участвовать в дежурствах и координировать устранение критических инцидентов, оценивать и внедрять технологии, повышающие надёжность сервисов. Планирование и отчётность
Вам нужно будет готовить отчёты о надёжности сервисов и эффективности команды, планировать ресурсы команды на среднесрочную перспективу. Больше о разработке в Яндексе — в канале Yandex for Developers* Работали в роли SRE- или DevOpsинженера от трёх-четырёх лет * Руководили командой инженеров не менее двух лет * Глубоко понимаете принципы SRE: SLI/SLO/SLA, бюджет ошибок, автоматизацию, мониторинг, управление инцидентами * Владеете навыками проектирования отказоустойчивых и масштабируемых систем * Уверенно работаете с Linux, сетевыми протоколами и инфраструктурой * Имеете практический опыт работы с контейнеризацией и оркестрацией (Docker, Kubernetes), системами мониторинга и алертинга (Prometheus, Grafana, Zabbix и т. д.), инструментами автоматизации (Ansible, Terraform и т. п.), базами данных (SQL и NoSQL) * Обладаете сильными коммуникативными навыками: можете чётко донести мысль до коллег и партнёров, вести переговоры и договариваться* Работали с облачными платформами (Yandex Cloud, AWS, GCP, Azure) * Участвовали в построении disaster-recovery-решений и проведении chaos engineering * Выступали с докладами на технических конференциях или писали статьи на профильные темы * Знакомы с микросервисной архитектурой и сервисными сетками (Istio, Linkerd) * Имеете сертификаты по Kubernetes (CKA), AWS/GCP или другим релевантным технологиям

Similar jobs