SRE в команду ML-сервисов Yandex Cloud
Команда ML делает продукты, которые помогают использовать машинное обучение и большие языковые модели даже людям, далёким от программирования. С помощью наших инструментов коллеги обучают нейросети. Ищем специалиста, который будет поддерживать и развивать инфраструктуру наших сервисов.Поддерживать и развивать инфраструктуру наших сервисов
Вам предстоит автоматизировать текущие и формировать новые инфраструктурные подходы и практики, выстраивать observability сервисов и помогать продуктовым командам с их внедрением. Вы будете ретроспективно развивать инфраструктуру и поддерживать стабильность сервисов по мере роста количества пользователей, функциональности и нагрузки. Пример такой задачи — автоматизация развёртывания ML-моделей. Исследовать отказы и устранять их причины
Вы будете наблюдать за работой высоконагруженных сервисов и устранять неполадки. Пример такой задачи — анализ роста количества отказов или времени ответа сервиса YandexGPT. Разрабатывать новые сервисы по мере необходимости
Нужно будет заниматься разработкой — например, создать универсальный прокси-сервер для запуска внутренних сервисов в Yandex Cloud с минимальными усилиями.* Разрабатывали и, главное, эксплуатировали высоконагруженные веб-сервисы (разработка — дело нехитрое, с этим мы и сами справляемся, пережить наплыв пользователей — вот задача) * Знаете Go или Java, готовы писать и на том, и на другом * Испытываете непреодолимое желание всё починить, измерить и усовершенствовать* Работали с Terraform * Применяли Envoy и разрабатывали плагины для него * Развёртывали сервисы в Kubernetes * Имеете сертификат Yandex Cloud Certified Engineer Associate или другие сертификаты от Yandex Cloud
Вам предстоит автоматизировать текущие и формировать новые инфраструктурные подходы и практики, выстраивать observability сервисов и помогать продуктовым командам с их внедрением. Вы будете ретроспективно развивать инфраструктуру и поддерживать стабильность сервисов по мере роста количества пользователей, функциональности и нагрузки. Пример такой задачи — автоматизация развёртывания ML-моделей. Исследовать отказы и устранять их причины
Вы будете наблюдать за работой высоконагруженных сервисов и устранять неполадки. Пример такой задачи — анализ роста количества отказов или времени ответа сервиса YandexGPT. Разрабатывать новые сервисы по мере необходимости
Нужно будет заниматься разработкой — например, создать универсальный прокси-сервер для запуска внутренних сервисов в Yandex Cloud с минимальными усилиями.* Разрабатывали и, главное, эксплуатировали высоконагруженные веб-сервисы (разработка — дело нехитрое, с этим мы и сами справляемся, пережить наплыв пользователей — вот задача) * Знаете Go или Java, готовы писать и на том, и на другом * Испытываете непреодолимое желание всё починить, измерить и усовершенствовать* Работали с Terraform * Применяли Envoy и разрабатывали плагины для него * Развёртывали сервисы в Kubernetes * Имеете сертификат Yandex Cloud Certified Engineer Associate или другие сертификаты от Yandex Cloud