Старший LLM-разработчик в команду претрейна Alice AI LLM

Претрейн — первый и самый затратный этап обучения LLM. Наша команда отвечает за скорость и стабильность обучения моделей YandexGPT. Приглашаем в команду старшего LLM-разработчика, который умеет писать классный код. Откликайтесь, даже если вы пока соответствуете не всем требованиям вакансии, но очень-очень хотите научиться новому (и уже учитесь)!Повышение скорости и стабильности претрейна Alice AI LLM
Мы прокачиваем все составляющие гигантских LLM-обучений: эффективно реализуем разные виды распределённого обучения, значительно ускоряем обучение на тысячи GPU за счёт использования типов пониженной точности и самописных CUDA/Triton-кернелов, экспериментируем с архитектурой, оптимизаторами и др. У вас будет возможность поработать над разными задачами по всему стеку предобучения. Улучшение работы с длинным контекстом
В эпоху AI-агентов и мультимодальных моделей очень важно работать с контекстами в сотни тысяч токенов. Возможность эффективной работы с контекстом такой длины ещё со стадии претрейна — большой инженерный и исследовательский вызов. Будем вместе с ним справляться. Разработка единой кодовой базы для LLM-обучений
Мы работаем над значительным улучшением и ускорением нашей инфраструктуры обучения: дизайним и пишем с нуля модули, которые будут использованы по всему стеку обучения — от претрейна до алаймента и мультимодальных обучений. Если вам всегда хотелось написать свою DL-библиотеку — это отличная возможность. Исследования и инжиниринг в одном флаконе
Вам предстоит проводить эксперименты, изучать самые последние статьи и имплементировать даже недостающие части из них. Наша команда перенимает и улучшает наработки таких компаний, как NVIDIA и DeepSeek, и рассказывает об этом на внутренних LLM-семинарах, лекциях в ШАДе и крупных конференциях. Больше об ML в Яндексе — в канале Yandex for ML* Обучали трансформерные модели на PyTorch с нуля * Умеете писать классный код, знаете лучшие инженерные практики * Понимаете, как устроены современные LLM* Имеете опыт в распределённом обучении: знаете, что такое FSDP и контекстный параллелизм * Разрабатывали на CUDA/Triton и сможете написать backward для Flash Attention * Классно знаете математику и можете объяснить, что такое многообразие

Similar jobs