Middle RL - Engineer (GigaChat Vision)

This position is no longer accepting applications(closed Jun 20, 2026).
Привет! Это GigaChat Vision — команда, которая делает полный цикл обучения VLM-моделей. Ищем сильного инженера в RL-направление: человека, который будет драйвить ключевые исследования и разработки, влиять на качество моделей и доводить сложные идеи до работающих решений. _Первый этап отбора на эту вакансию – общение с AI-рекрутером. После отклика вам на почту и в чат на платформе HeadHunter придет приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным!_* Разрабатывать и улучшать RL-подходы для обучения VLM/LLM-моделей: выбор алгоритмов, постановка экспериментов и анализ результатов; * Проектировать reward-функции и пайплайны обучения, выстраивать стратегии масштабирования под разные домены и сценарии, напрямую влияя на метрики качества; * Определять требования к данным для RL: участвовать в построении пайплайнов сбора, фильтрации и подготовки датасетов; * Развивать систему оценки reasoning-качества: внедрять и улучшать метрики в существующем eval-фреймворке, предлагать новые способы измерения качества под новые возможности модели; * Работать на стыке с Pretrain / SFT / Infra: обеспечивать согласованность решений и перенос экспериментов в продакшн-пайплайн; * Следить за состоянием области и переводить свежие идеи из статей в проверяемые эксперименты и инженерные решения; * Глубоко погружаться в технические задачи: дебажить эксперименты, разбирать аномалии в обучении, находить узкие места и доводить решения до результата; * Делиться экспертизой с командой: участвовать в код-ревью, помогать улучшать качество решений и подходы к экспериментам; * Развивать инфраструктуру для RL.* Глубокое понимание RL для LLM/VLM (RLHF, GRPO, PPO) и практический опыт; * Понимание полного цикла обучения VLM/LLM (pretrain → SFT → RL) и того, как решения на каждом этапе влияют на финальные метрики; * Опыт с распределённым обучением (DeepSpeed, FSDP) и inference-фреймворками. * Сильный практический опыт постановки, проведения и анализа RL-экспериментов; * Умение работать в условиях неопределённости и самостоятельно двигать сложные технические задачи; * Умение выстраивать процессы в условиях неопределённости; * Опыт взаимодействия со смежными командами и стейкхолдерами; * Системное мышление: способность видеть картину целиком — от данных и reward-дизайна до eval и продакшн-метрик. **Будет плюсом:** * Опыт менторинга или технического лидерства в рамках отдельных проектов; * Публикации или open-source вклад в области RL/LLM/VLM; * Опыт вывода RL-обученных моделей в продакшн и поддержки их качества.* крупнейшее DS&AI community — более 600 DS-специалистов банка * дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира * возможность быть соавтором НИРов и статей для международных конференций * возможность выбрать удобный формат работы: гибрид или офис * ежегодный пересмотр зарплаты, годовая премия * корпоративный спортзал и зоны отдыха * более 400 образовательных программ СберУниверситета для профессионального и карьерного развития * расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа * ипотека выгоднее до 7% для каждого сотрудника * бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров * вознаграждение за рекомендацию друзей в команду Сбера.

Similar jobs