Старший DL-разработчик в команду Нейро
Алиса — это один из главных продуктов Яндекса. Мы разрабатываем реворд-модели и LLM-оценщик, которые являются ключевыми элементами пайплайна Нейро. Ищем старшего DL-разработчика, который будет помогать нам улучшать эти модели и делать продукт будущего.Улучшение Нейро в Алисе
Вам предстоит совершенствовать процесс алайнмента Нейро с использованием реворд-моделей и LLM-оценщика, а также решать смежные задачи, которые связаны с алайнментом. Исследования в области LLM-as-a-judge
Вы будете проводить эксперименты с подходами test-time scaling для LLM-оценщика, который не только ставит оценки, но и объясняет их. Улучшение LLM-оценщика
Нужно улучшать LLM-оценщика на всех стадиях его обучения: от annealing до GRPO, а также развивать мультимодальный VLM-оценщик: мы стремимся научить LLM-асессор оценивать не только текст, но и другое мультимодальное обогащение ответа. Подробнее про Alice AI Больше об ML в Яндексе — в канале Yandex for ML
* Видите за PyTorch-кодом математику: понимаете, как устроены LLM «под капотом» * Умеете превращать научные статьи в код: реализовывали SOTA-методы и алгоритмы * Обладаете широким кругозором и компетенциями в NLP и DL* Обладаете глубокими знаниями в области LLМ и RL * Работали с крупными моделями и распределённым обучением
Вам предстоит совершенствовать процесс алайнмента Нейро с использованием реворд-моделей и LLM-оценщика, а также решать смежные задачи, которые связаны с алайнментом. Исследования в области LLM-as-a-judge
Вы будете проводить эксперименты с подходами test-time scaling для LLM-оценщика, который не только ставит оценки, но и объясняет их. Улучшение LLM-оценщика
Нужно улучшать LLM-оценщика на всех стадиях его обучения: от annealing до GRPO, а также развивать мультимодальный VLM-оценщик: мы стремимся научить LLM-асессор оценивать не только текст, но и другое мультимодальное обогащение ответа. Подробнее про Alice AI Больше об ML в Яндексе — в канале Yandex for ML
* Видите за PyTorch-кодом математику: понимаете, как устроены LLM «под капотом» * Умеете превращать научные статьи в код: реализовывали SOTA-методы и алгоритмы * Обладаете широким кругозором и компетенциями в NLP и DL* Обладаете глубокими знаниями в области LLМ и RL * Работали с крупными моделями и распределённым обучением