Software Engineer в центр робототехники

В Центре робототехники Сбера мы создаем роботов и системы ИИ, которым нужны большие и аккуратно подготовленные наборы данных. Data Conveyor Team отвечает за путь этих данных от сырых записей до формата, с которым могут работать ML-команды. Сейчас нам нужен Software Engineer, который будет превращать записи с роботов и внешние датасеты в понятный, проверяемый и воспроизводимый формат для обучения моделей. Первый этап отбора на эту вакансию — общение с AI-рекрутером. После отклика ждите сообщение от него, диалог зайдёт примерно 10 минут. Задача AI-рекрутера — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. AI-рекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным для всех!* проектировать и реализовывать пайплайны, которые превращают данные из разных источников в формат, пригодный для обучения моделей * стабилизировать основной путь конвертации данных с роботов: единый поддерживаемый процесс, проверяемые результаты, повторяемые запуски и понятные отчеты об ошибках * поддерживать dataset schema, versioning, compatibility checks, validators и manifests * подключать новые источники данных: записи с роботов, внешние датасеты, симуляции, egocentric data, данные тестовых запусков и корректирующих демонстраций * обеспечивать reproducible dataset builds и связь source data -> converted episodes -> filtered dataset -> dataset release -> training run -> benchmark result * создавать validation suite: проверка файлов, video/parquet layout, timestamps, required fields, metadata, annotation status и known historical variants * готовить данные к передаче в обучение так, чтобы ML-команды понимали состав датасета, ограничения, версию и качество * делать надежные CLI/tools, тесты, runbooks и отладочные отчеты для исследователей и инженеров.* сильный Python и опыт разработки batch / data processing pipelines * опыт backend, data engineering или software engineering для внутренних платформ и ML/data workflows * опыт работы с большими файлами, metadata manifests, reproducible builds и validation logic * практический опыт с Linux, Docker, Git, CI/CD и командной строкой * понимание storage и data formats: S3/object storage, network storage, parquet, zarr, hdf5, webdataset, video files или аналогичные форматы * умение разбираться в нестандартных форматах данных и приводить их к строгому контракту * навыки работы с генеративными AI-моделями, опыт создания AI-агентов и использование их в работе будет преимуществом * опыт использования GigaChat, Kandinsky и аналогов в продуктах * инструментальное владение Ai для анализа, генерации и автоматизации * готовность писать поддерживаемый production-like код, а не одноразовые conversion scripts. Будет плюсом: * опыт с LeRobot, RLDS, DROID / Bridge / RT-X-like datasets, ROS bags или robotics trajectories * опыт с Ray, Airflow, Prefect, Kubernetes, SLURM, LSF или другими orchestration / job systems * опыт с W&B, MLflow, Hydra configs, experiment tracking или dataset management systems * понимание computer vision, multimodal data, VLA, imitation learning или robot learning.* дружный и высококвалифицированный коллектив * уникальные масштабные проекты, работа в приоритетном направлении * достойная заработная плата (оклад + годовая премия) * современные рабочие места и программное обеспечение * ДМС, корпоративная пенсионная программа, страхование от несчастных случаев, социальные гарантии, корпоративные мероприятия * высокий уровень корпоративной культуры * работа в офисе (г. Москва, метро Автозаводская).

Similar jobs