Senior ML Researcher/Engineer (World Models & RL) в команду робота доставки

Роботы доставки Яндекса ежедневно доставляют тысячи заказов, маневрируя в сложной, неструктурированной городской среде. Мы ищем Senior ML Engineer/Researcher, который сфокусируется на построении быстрой интерактивной модели мира и масштабном обучении MBRL-агентов.Разработка и скейлинг World Models
Вам предстоит проектировать и обучать массивные 3D/видеотокенизаторы и бэкбоны на базе Diffusion Transformers (DiT), Flow Matching, etc. Цель — точное предсказание эволюции физического мира в латентном пространстве в ответ на действия агента. Distributed Training
Вы будете строить пайплайны для распределённого обучения тяжёлых foundation-моделей на нашем вычислительном кластере. Предстоит работать с Data-, Tensor- и Pipeline-параллелизмом, оркестрировать мультинодовое обучение и выжимать абсолютный максимум из железа. Model-Based RL (MBRL) & Planning
Вашей задачей будет обучение чистого RL и политик IL + RL внутри замороженной латентной симуляции World Model, использование плотных self-supervised-репрезентаций для обучения reward-модели с высоким sample efficiency. Representation Shaping
Предстоит заниматься интеграцией вспомогательных лоссов для perception-задач 3D-детекции, сегментации, трекинга для явного семантического граундинга важных объектов сцены. Safety & Inference
Вы будете строить надёжный safety-контур поверх выходов модели и готовить всю конструкцию к реалтайм-инференсу прямо на edge-девайсах робота. Больше об ML в Яндексе — в канале Yandex for ML* На экспертном уровне владеете JAX и PyTorch, имеете глубокий практический опыт работы с современными фреймворками — мы делаем огромную ставку на JAX: SPMD, multi-host JAX, XLA-компиляцию * Имеете навыки масштабного распределённого обучения, уверенный опыт обучения тяжёлых моделей на мультинодовых кластерах (FSDP, принципы Megatron-LM, 3D parallelism) * Имеете глубокую математическую и ML-базу: отлично понимаете непрерывные генеративные модели (Diffusion, Flow Matching, Diffusion Forcing) и Deep RL (Actor-Critic-архитектуры, RL in imagination, Model-Based RL) * Способны писать, генерировать и проверять быстрый оптимизированный код и доводить хардкорный ресёрч до продакшна с жёсткими ограничениями реального времени* Работали с Vision Foundation Models, генеративными видео- и image-моделями, а также синтезом лидарных облаков * Имеете опыт в Reinforcement Learning в LLM или лучше за их пределами * Обладаете опытом продвинутой квантизации тяжёлых трансформеров или диффузионных моделей для edge-девайсов: FP8, W4A8, INT4 (PTQ/QAT) * Оптимизировали инференс «на борту» робота: использовали C++, TensorRT, ONNX, CUDA * Имеете бэкграунд в Autonomous Driving, Motion Planning или Robotics

Similar jobs