ML-разработчик в команду ускорения инференса

Модель Alice AI LLM уже используется в сервисах Яндекса, но мы хотим сделать её ещё эффективнее. Ищем талантливого инженера-исследователя, который сможет оптимизировать процессы инференса для современных архитектур LLM. Если вы готовы экспериментировать и внедрять новые методы, ждём вас в команде.Непрерывный разбор статей из ресёрча
В первую очередь предстоит глубоко ознакомиться с серией статей по теме (более 20 публикаций), систематизировать их и зафиксировать самые перспективные. Применение методов для Alice AI LLM
Необходимо провести множество итераций экспериментов по проверке гипотез для Alice AI LLM, чтобы перейти к генерации и реализации новых подходов. Также нужно будет подтвердить практическую применимость методов: замерить качество и ускорение. Разработка универсальных инструментов
И наконец, предстоит создать общее решение, которое будут переиспользовать ML-инженеры во всём Яндексе. Больше об ML в Яндексе — в канале Yandex for ML* Работали с современными LLM и понимаете, как устроена их архитектура * Пишете на Python, имеете опыт разработки на Torch * Глубоко разбираетесь в NLP * Знакомы с пайплайном инференса генеративных моделей, знаете такие оптимизации, как KV-кеширование * Понимаете, как изменяются вычисления при изменении batch_size * Разбираетесь в пользовательских требованиях к API моделей: RPS, latency per token/sample, GPU VRAM, SM utilization* Уверенно владеете C++ и знакомы с программированием на CUDA

Similar jobs