ML-разработчик в команду инфраструктуры претрейна Alice AI LLM

Alice AI LLM — это языковая модель Яндекса, которая используется в разных сервисах для генерации текста. Ищем опытного ML-разработчика в команду инфраструктуры претрейна. Откликайтесь, если знакомы с процессом обучения DL-моделей, умеете выполнять оптимизации.Оптимизация обучений в контексте RL
В современных открытых решениях использование GPU не превышает 10%, что крайне неэффективно. Вам предстоит ускорить обучение в этой схеме. Построение более эффективных схем коммуникаций
Комбинация YaFSDP + YCCL + FP8 позволяет обучать модели, имеющие сотни миллиардов параметров, с максимальной производительностью. Но для больших моделей требуются более сложные схемы: Pipeline Parallelism, продвинутый Expert Parallelism, Context Parallelism. Выполнение низкоуровневых оптимизаций
Мы стремимся к тому, чтобы тензорные ядра были нагружены по максимуму. Вы будете проводить нетривиальные оптимизации на низком уровне с написанием кода на Triton, CUDA или CuTe DSL. Больше об ML в Яндексе — в канале Yandex for ML* Работали с современными LLM, понимаете их архитектуру * Пишете на Python, имеете опыт разработки на Torch * Знакомы с процессом обучения DL-моделей, умеете выполнять оптимизации * Понимаете основы распределённого обучения; знаете, почему FSDP лучше DDP, как используется FP8 в обучении и что лучше: TP или EP

Similar jobs