Старший LLM-разработчик в команду рассуждений Alice AI LLM
Наша команда улучшает способности к рассуждениям Alice AI LLM. Вы будете масштабировать RLVR/RLHF-обучение reasoning-моделей, объединять сигналы из разных доменов в рамках единой модели и экспериментировать с различными функциями наград для улучшения повседневных B2C-сценариев пользователей.Развитие базовых reasoning-способностей Alice AI LLM
Ближайшая цель нашей команды — научиться эффективнее масштабировать RLVR- и RLHF-обучение reasoning-моделей для B2C‑задач широкого круга пользователей. Вас ждут эксперименты по улучшению общих свойств модели (полезность, логичность, структура) за счёт повышения качества цепочек рассуждений и усиления различных паттернов (backtracking, верификация) на задачах разной тематики. Объединение сигналов в общей модели
Важную роль в reasoning‑моделях играют качественно новые схемы обучения для объединения знаний из разных областей. Мы стремимся создать новые этапы алайнмента и системы наград, которые позволят совместить сигналы на математических и научных задачах вместе с креативными, одновременно повысив качество рассуждений в каждой области по сравнению с независимым обучением. Вам предстоит проводить исследования с новыми reward‑моделями, этапами и дистилляцией в рамках единой модели. Эксперименты с RL-алгоритмами
Вам предстоит пробовать новые SOTA подходы и находить в них те, которые приносят пользу реальному продукту: экспериментировать с различными on‑policy и асинхронными RL‑алгоритмами, а также тестировать новые методы стабилизации обучения Dense‑ и MoE‑архитектур. Больше об ML в Яндексе — в канале Yandex for ML* Отлично разбираетесь в NLP и классическом ML * Умеете программировать на Python * Понимаете, как устроены современные LLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт
Ближайшая цель нашей команды — научиться эффективнее масштабировать RLVR- и RLHF-обучение reasoning-моделей для B2C‑задач широкого круга пользователей. Вас ждут эксперименты по улучшению общих свойств модели (полезность, логичность, структура) за счёт повышения качества цепочек рассуждений и усиления различных паттернов (backtracking, верификация) на задачах разной тематики. Объединение сигналов в общей модели
Важную роль в reasoning‑моделях играют качественно новые схемы обучения для объединения знаний из разных областей. Мы стремимся создать новые этапы алайнмента и системы наград, которые позволят совместить сигналы на математических и научных задачах вместе с креативными, одновременно повысив качество рассуждений в каждой области по сравнению с независимым обучением. Вам предстоит проводить исследования с новыми reward‑моделями, этапами и дистилляцией в рамках единой модели. Эксперименты с RL-алгоритмами
Вам предстоит пробовать новые SOTA подходы и находить в них те, которые приносят пользу реальному продукту: экспериментировать с различными on‑policy и асинхронными RL‑алгоритмами, а также тестировать новые методы стабилизации обучения Dense‑ и MoE‑архитектур. Больше об ML в Яндексе — в канале Yandex for ML* Отлично разбираетесь в NLP и классическом ML * Умеете программировать на Python * Понимаете, как устроены современные LLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт