Software Engineer в центр робототехники
В Центре робототехники Сбера мы создаем роботов и системы ИИ, которым нужны большие и аккуратно подготовленные наборы данных. Data Conveyor Team отвечает за путь этих данных от сырых записей до формата, с которым могут работать ML-команды. Сейчас нам нужен Software Engineer, который будет превращать записи с роботов и внешние датасеты в понятный, проверяемый и воспроизводимый формат для обучения моделей.
Первый этап отбора на эту вакансию — общение с AI-рекрутером. После отклика ждите сообщение от него, диалог зайдёт примерно 10 минут. Задача AI-рекрутера — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. AI-рекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным для всех!* проектировать и реализовывать пайплайны, которые превращают данные из разных источников в формат, пригодный для обучения моделей
* стабилизировать основной путь конвертации данных с роботов: единый поддерживаемый процесс, проверяемые результаты, повторяемые запуски и понятные отчеты об ошибках
* поддерживать dataset schema, versioning, compatibility checks, validators и manifests
* подключать новые источники данных: записи с роботов, внешние датасеты, симуляции, egocentric data, данные тестовых запусков и корректирующих демонстраций
* обеспечивать reproducible dataset builds и связь source data -> converted episodes -> filtered dataset -> dataset release -> training run -> benchmark result
* создавать validation suite: проверка файлов, video/parquet layout, timestamps, required fields, metadata, annotation status и known historical variants
* готовить данные к передаче в обучение так, чтобы ML-команды понимали состав датасета, ограничения, версию и качество
* делать надежные CLI/tools, тесты, runbooks и отладочные отчеты для исследователей и инженеров.* сильный Python и опыт разработки batch / data processing pipelines
* опыт backend, data engineering или software engineering для внутренних платформ и ML/data workflows
* опыт работы с большими файлами, metadata manifests, reproducible builds и validation logic
* практический опыт с Linux, Docker, Git, CI/CD и командной строкой
* понимание storage и data formats: S3/object storage, network storage, parquet, zarr, hdf5, webdataset, video files или аналогичные форматы
* умение разбираться в нестандартных форматах данных и приводить их к строгому контракту
* навыки работы с генеративными AI-моделями, опыт создания AI-агентов и использование их в работе будет преимуществом
* опыт использования GigaChat, Kandinsky и аналогов в продуктах
* инструментальное владение Ai для анализа, генерации и автоматизации
* готовность писать поддерживаемый production-like код, а не одноразовые conversion scripts.
Будет плюсом:
* опыт с LeRobot, RLDS, DROID / Bridge / RT-X-like datasets, ROS bags или robotics trajectories
* опыт с Ray, Airflow, Prefect, Kubernetes, SLURM, LSF или другими orchestration / job systems
* опыт с W&B, MLflow, Hydra configs, experiment tracking или dataset management systems
* понимание computer vision, multimodal data, VLA, imitation learning или robot learning.* дружный и высококвалифицированный коллектив
* уникальные масштабные проекты, работа в приоритетном направлении
* достойная заработная плата (оклад + годовая премия)
* современные рабочие места и программное обеспечение
* ДМС, корпоративная пенсионная программа, страхование от несчастных случаев, социальные гарантии, корпоративные мероприятия
* высокий уровень корпоративной культуры
* работа в офисе (г. Москва, метро Автозаводская).