Старший разработчик в команду ML-планера робота доставки (RL)

Каждый день роботы доставки Яндекса возят еду и посылки по улицам городов России. Мы ищем сильного разработчика в команду, которая занимается созданием и улучшением RL-планера. Откликайтесь, если знаете Python и PyTorch и понимаете основы Reinforcement Learning и трансформерных моделей.Поиск и интеграция новых подходов к обучению RL-планера
Вам нужно будет исследовать современные методы RL и их модификации (PPO, GRPO, TD-λ и другие), прототипировать новые алгоритмы, настраивать reward-функции и сценарии обучения. Ваша задача — превратить идеи из статей и экспериментов в устойчивый продакшн-пайплайн. Развитие архитектур трансформерных моделей планирования
Вам предстоит проектировать и внедрять новые модули в модели на базе Wayformer- и MotionLM-подходов. Вы будете отвечать за качество модели, стабильность обучения и интерпретируемость поведения модели. Разработка и расширение сценариев симуляции
В составе команды вы будете придумывать новые сложные сцены для GPU-симулятора. Цель — закрыть sim-to-real gap и сделать планер максимально устойчивым к неожиданным ситуациям в городе. Больше об ML в Яндексе — в канале Yandex for ML* Уверенно знаете Python и PyTorch * Понимаете основы Reinforcement Learning и трансформерных моделей * Готовы изучать сложные подходы и решать нетривиальные задачи* Работали с RL, Motion Planning или трансформерами * Обладаете знаниями в области робототехники и симуляции * Имеете опыт работы с C++, ROS, TRT, Cuda

Similar jobs