Разработчик на C++ в YandexGPT (Нейро)

Наша команда развивает бэкенд Нейро и другие поисковые продукты на основе LLM-моделей (YandexGPT). Мы занимаемся инференсом на GPU-ускорителях и развитием продукта (API взаимодействия с фронтендом, реализация ML-стека в рантайме, логи для аналитики и др.). Обещаем сложные и разнообразные задачи!Инференс тяжёлых языковых генеративных моделей на GPU-ускорителях
Сердце LLM-based-продуктов — это, конечно, непосредственное вычисление LLM-моделей. Вас ждёт решение задач аллокации различных компонентов с LLM-моделями, настройка их взаимодействия, релизных процессов, подбор различных параметров для оптимизации. Оптимизация методов распределения работы между вычислительными узлами
Можно оптимизировать не только само вычисление, но и методы разделения входящего потока между узлами, чтобы добиться наиболее выгодного по latency распределения работы между узлами. Также мы экспериментируем с отложенным продолжением вычислений. Разработка различных кусков многокомпонентной системы
Ответ на основе поисковых источников — сложный многокомпонентный продукт. Важно не только вычислить что-то с помощью LLM-модели, но и: 1) приносить данные на вход модели; 2) правильно сохранять результаты для отдачи их пользователям; 3) настраивать взаимодействие с фронтендом (стриминг, например); 4) обеспечивать продуктовым и ML-командам возможность проводить эксперименты и улучшать продукт. Всё вместе порождает немало содержательных и сложных задач. Работа в бэкенде поисковых LLM открывает много технических вызовов, менее привычных в продуктах, которые не работают с LLM-моделями. Ведь вычисления, длящиеся не сотни миллисекунд, а многие секунды, требуют пересмотра устоявшихся подходов. Больше о бэкенде в Яндексе — в канале Yandex for Backend
* Разбираетесь в базовых алгоритмах и структурах данных * Хорошо знаете С++ * Знакомы с паттернами и идиомами построения программного обеспечения * Умеете писать надёжный и читабельный многопоточный код * Разрабатывали большой сервис в команде

Similar jobs