ML-инженер в группу онлайн-обучения генеративной персонализации
Мы создаём рекомендательные системы, которые помогают миллионам пользователей находить именно то, что им нужно. Наша команда работает на стыке рекомендательных систем, глубокого обучения и инфраструктуры, надёжно внедряя передовые нейросетевые подходы в высоконагруженные сервисы с тысячами RPS.Ускорять алгоритмы RL-дообучения рекомендательных моделей
Мы умеем улучшать качество рекомендаций, используя Reinforcement Learning (GRPO, DPO) для быстрой адаптации моделей на основе свежего пользовательского фидбэка. Вам предстоит создавать и оптимизировать рантайм-пайплайн, который позволит дообучать и выкатывать обновлённые нейросетевые модели за десятки минут. Ключевой фокус — на ускорении итераций RL-цикла и эффективном использовании вычислительных ресурсов. Строить и внедрять распределённый RT-процессинг
Для обучения и сервинга современных рекомендательных моделей, работающих с объёмным пользовательским профилем, необходима надёжная и эффективная поставка семплов. Вы будете расширять существующие и создавать новые системы для сервисов Яндекса, которые обеспечивают хранение, передачу и обработку таких данных с гарантией высокой доступности и бесперебойной работы RL-пайплайнов. Внедрять концепцию Feature Store для улучшения ML-пайплайнов
Как обеспечить идентичную обработку признаков для нейросетевых моделей в режимах real-time-инференса и дообучения? Мы разрабатываем фреймворк, который уже внедрён в домены Музыки и Картинок и гарантирует такую консистентность. Вам предстоит расширять его функциональность и сферу применения, уделяя внимание специфике работы с данными для обучения с подкреплением.* Владеете Python и C++, в том числе имеете уверенные навыки оптимизации * Понимаете принципы распределённой обработки данных и парадигмы MapReduce * Знаете основы работы нейронных сетей * Умеете разбираться в чужом коде и предлагать улучшения архитектуры* Занимались разработкой и отладкой многопоточных или высоконагруженных систем
Мы умеем улучшать качество рекомендаций, используя Reinforcement Learning (GRPO, DPO) для быстрой адаптации моделей на основе свежего пользовательского фидбэка. Вам предстоит создавать и оптимизировать рантайм-пайплайн, который позволит дообучать и выкатывать обновлённые нейросетевые модели за десятки минут. Ключевой фокус — на ускорении итераций RL-цикла и эффективном использовании вычислительных ресурсов. Строить и внедрять распределённый RT-процессинг
Для обучения и сервинга современных рекомендательных моделей, работающих с объёмным пользовательским профилем, необходима надёжная и эффективная поставка семплов. Вы будете расширять существующие и создавать новые системы для сервисов Яндекса, которые обеспечивают хранение, передачу и обработку таких данных с гарантией высокой доступности и бесперебойной работы RL-пайплайнов. Внедрять концепцию Feature Store для улучшения ML-пайплайнов
Как обеспечить идентичную обработку признаков для нейросетевых моделей в режимах real-time-инференса и дообучения? Мы разрабатываем фреймворк, который уже внедрён в домены Музыки и Картинок и гарантирует такую консистентность. Вам предстоит расширять его функциональность и сферу применения, уделяя внимание специфике работы с данными для обучения с подкреплением.* Владеете Python и C++, в том числе имеете уверенные навыки оптимизации * Понимаете принципы распределённой обработки данных и парадигмы MapReduce * Знаете основы работы нейронных сетей * Умеете разбираться в чужом коде и предлагать улучшения архитектуры* Занимались разработкой и отладкой многопоточных или высоконагруженных систем