Старший DL-разработчик в команду разработки агентов и функций Alice AI LLM
Наша команда разработки агентов и функций работает над тем, чтобы совершенствовать у моделей семейства Alice AI LLM способность взаимодействовать с окружающим миром. Становитесь частью нашей команды и помогайте нам создавать технологии будущего, вместе с нами учите модели рассуждать при решении задач.Новые данные и среды для обучения
Модель, способная выполнять сложные агентные задачи, должна обладать набором различных навыков: уметь делать параллельные вызовы функций, определять релевантность инструментов для решаемой задачи, строить план выполнения и многое другое. Возникает необходимость в данных, используя которые модель могла бы эффективно учиться. Они могут представлять из себя как пары инстракт — ответ, так и интерактивные среды, заточенные на обучение конкретным способностям. Ваша задача будет заключаться в сборе таких датасетов и оценке их влияния на рост качества модели. Обучение моделей агентности
Нам важна возможность применения LLM в широком наборе сценариев — от личного помощника до кодового ассистента. Для этого от моделей требуются хорошие знания доменных областей и умение работать в разнообразных условиях. И если первое решается, как правило, на этапе претрейна, то второе — навык, который возможно развить только путём решения задач в сложных средах. Мы предполагаем, что вы будете обучать агентные модели в комплексных сетапах с большим количеством одновременно используемых сред. Усиление моделей ризонингом
Использование моделями рассуждений при решении сложных проблем (математика, код) показало высокий потенциал роста качества. Мы уверены, что базовые паттерны ризонинга, такие как верификация, рефлексия и бэктрекинг, полезны и в агентных сценариях. Возникает задача со сложными ограничениями, которую вам предстоит решать, — значительно улучшить качество работы агента при условии разумного роста времени ответа. Больше об ML в Яндексе — в канале Yandex for ML* Отлично знаете математику, классические алгоритмы и структуры данных * Умеете программировать на Python * Разбираетесь в Reinforcement Learning. Вас не пугают такие слова, как GAE, PPO, GRPO и другие версии policy optimization * Имеете практический опыт в распределённом обучении больших моделей на основе архитектуры Transformer * Понимаете, как устроена стадия alignment'а современных LLM* Обучали LLM-навыкам использования внешних инструментов (tool calling, function calling) * Имеете практический опыт работы c инфраструктурой для RL-обучения: vLLM, SGLang, VERL, etc.
Модель, способная выполнять сложные агентные задачи, должна обладать набором различных навыков: уметь делать параллельные вызовы функций, определять релевантность инструментов для решаемой задачи, строить план выполнения и многое другое. Возникает необходимость в данных, используя которые модель могла бы эффективно учиться. Они могут представлять из себя как пары инстракт — ответ, так и интерактивные среды, заточенные на обучение конкретным способностям. Ваша задача будет заключаться в сборе таких датасетов и оценке их влияния на рост качества модели. Обучение моделей агентности
Нам важна возможность применения LLM в широком наборе сценариев — от личного помощника до кодового ассистента. Для этого от моделей требуются хорошие знания доменных областей и умение работать в разнообразных условиях. И если первое решается, как правило, на этапе претрейна, то второе — навык, который возможно развить только путём решения задач в сложных средах. Мы предполагаем, что вы будете обучать агентные модели в комплексных сетапах с большим количеством одновременно используемых сред. Усиление моделей ризонингом
Использование моделями рассуждений при решении сложных проблем (математика, код) показало высокий потенциал роста качества. Мы уверены, что базовые паттерны ризонинга, такие как верификация, рефлексия и бэктрекинг, полезны и в агентных сценариях. Возникает задача со сложными ограничениями, которую вам предстоит решать, — значительно улучшить качество работы агента при условии разумного роста времени ответа. Больше об ML в Яндексе — в канале Yandex for ML* Отлично знаете математику, классические алгоритмы и структуры данных * Умеете программировать на Python * Разбираетесь в Reinforcement Learning. Вас не пугают такие слова, как GAE, PPO, GRPO и другие версии policy optimization * Имеете практический опыт в распределённом обучении больших моделей на основе архитектуры Transformer * Понимаете, как устроена стадия alignment'а современных LLM* Обучали LLM-навыкам использования внешних инструментов (tool calling, function calling) * Имеете практический опыт работы c инфраструктурой для RL-обучения: vLLM, SGLang, VERL, etc.