DevOps-инженер в Deploy Platform
Команда Deploy Platform развивает инфраструктурное контейнерное облако, в котором располагаются сервисы, создаваемые тысячами разработчиков Яндекса. Мы ищем DevOps-инженера, который будет развивать автоматизацию обновлений и управлять парком хостов. Ждём, что вы пишете на Go или Python и владеете Bash.Развивать и совершенствовать автоматизацию обновлений облака
Вы будете поддерживать и модернизировать hostmanager — ключевой сервис для управления жизненным циклом хостов в облаке, автоматизировать обновления ОС, ядра, системных компонентов и Kubernetes-нод с минимальным влиянием на работающие сервисы, разрабатывать механизмы безопасного канареечного развёртывания и отката обновлений, интегрировать лучшие практики CI/CD и Infrastructure as Code в процессы эксплуатации инфраструктуры. Управлять парком хостов (более 100 тысяч единиц)
Необходимо будет обеспечивать высокую доступность и производительность всей инфраструктуры, анализировать метрики, логи и события для выявления и предотвращения инцидентов, участвовать в проектировании систем мониторинга, алертинга и диагностики на уровне хостов и кластеров, работать с распределёнными системами, оптимизировать использование ресурсов и снижать время простоя. Улучшать безопасность и изоляцию системных компонентов
Вам предстоит работать над изоляцией dom0 и других критических компонентов виртуализации и оркестрации, внедрять механизмы безопасной загрузки (secure boot), контроля целостности и изоляции окружения. Вы будете анализировать уязвимости и участвовать в повышении уровня защищённости инфраструктуры на всех уровнях: от железа до оркестратора. Развёртывать и развивать bare-metal-кластеры Kubernetes
Вам предстоит проектировать и внедрять решения для развёртывания и эксплуатации крупных bare-metal-кластеров Kubernetes в выделенных дата-центрах, исследовать и адаптировать инфраструктурные сервисы для работы в гибридных средах — на физических серверах и в облаках. Вы будете участвовать в развёртывании критически важных систем в Kubernetes (например, YT — платформы для распределённых вычислений), обеспечивать высокую производительность и отказоустойчивость. Работать с low-level-компонентами: Container Runtime (Porto), CNI, CSI, node agents, системными демонами, а также с настройкой ядра Linux и аппаратной спецификой серверов; разрабатывать собственные инструменты и контроллеры для Kubernetes, автоматизировать рутинные операции.* Администрировали высоконагруженные сервисы, умеете устранять неполадки * Пишете на Go или Python, владеете Bash * Знаете и используете ansible/puppet/salt * Уверенно администрируете системы Debian / Ubuntu / Red Hat * Понимаете, как устроены большие кластеры и как их обслуживать * Не боитесь коммуницировать с большим количеством смежных команд, строить и улучшать процессы* Разрабатывали на Go, Python или C++ * Работали с Kubernetes и Helm * Занимались сборкой образов с использованием Packer/debootstrap * Выстраивали SLO/SLA для сервисов и инфраструктуры * Умеете работать с Terraform для управления инфраструктурой * Знакомы с процессами инцидент-менеджмента * Понимаете принципы работы очередей и распределённых систем * Разбираетесь в обеспечении отказоустойчивости серверных приложений
Вы будете поддерживать и модернизировать hostmanager — ключевой сервис для управления жизненным циклом хостов в облаке, автоматизировать обновления ОС, ядра, системных компонентов и Kubernetes-нод с минимальным влиянием на работающие сервисы, разрабатывать механизмы безопасного канареечного развёртывания и отката обновлений, интегрировать лучшие практики CI/CD и Infrastructure as Code в процессы эксплуатации инфраструктуры. Управлять парком хостов (более 100 тысяч единиц)
Необходимо будет обеспечивать высокую доступность и производительность всей инфраструктуры, анализировать метрики, логи и события для выявления и предотвращения инцидентов, участвовать в проектировании систем мониторинга, алертинга и диагностики на уровне хостов и кластеров, работать с распределёнными системами, оптимизировать использование ресурсов и снижать время простоя. Улучшать безопасность и изоляцию системных компонентов
Вам предстоит работать над изоляцией dom0 и других критических компонентов виртуализации и оркестрации, внедрять механизмы безопасной загрузки (secure boot), контроля целостности и изоляции окружения. Вы будете анализировать уязвимости и участвовать в повышении уровня защищённости инфраструктуры на всех уровнях: от железа до оркестратора. Развёртывать и развивать bare-metal-кластеры Kubernetes
Вам предстоит проектировать и внедрять решения для развёртывания и эксплуатации крупных bare-metal-кластеров Kubernetes в выделенных дата-центрах, исследовать и адаптировать инфраструктурные сервисы для работы в гибридных средах — на физических серверах и в облаках. Вы будете участвовать в развёртывании критически важных систем в Kubernetes (например, YT — платформы для распределённых вычислений), обеспечивать высокую производительность и отказоустойчивость. Работать с low-level-компонентами: Container Runtime (Porto), CNI, CSI, node agents, системными демонами, а также с настройкой ядра Linux и аппаратной спецификой серверов; разрабатывать собственные инструменты и контроллеры для Kubernetes, автоматизировать рутинные операции.* Администрировали высоконагруженные сервисы, умеете устранять неполадки * Пишете на Go или Python, владеете Bash * Знаете и используете ansible/puppet/salt * Уверенно администрируете системы Debian / Ubuntu / Red Hat * Понимаете, как устроены большие кластеры и как их обслуживать * Не боитесь коммуницировать с большим количеством смежных команд, строить и улучшать процессы* Разрабатывали на Go, Python или C++ * Работали с Kubernetes и Helm * Занимались сборкой образов с использованием Packer/debootstrap * Выстраивали SLO/SLA для сервисов и инфраструктуры * Умеете работать с Terraform для управления инфраструктурой * Знакомы с процессами инцидент-менеджмента * Понимаете принципы работы очередей и распределённых систем * Разбираетесь в обеспечении отказоустойчивости серверных приложений