Middle+ AI Engineer (Native Omnimodality & VLA)
Ищем Middle AI Engineer для создания нативных омнимодальных архитектур — новых способов кодирования и совместного обучения в доменах изображений, аудио, видео и т.д.* разработка принципиально новых мультимодальных представлений и кодирования информации (vision, audio, video, text)
* создание универсальных энкодеров и shared latent spaces
* Vision-Language-Action (VLA) архитектуры и стрим взаимодействия с роботами
* исследование end-to-end омнимодальных моделей и обучение на масштабных мультимодальных датасетах.* отличный Python 3, опыт с PyTorch, bash, git, Docker, dvc
* глубокое понимание representation learning и multimodal learning
* опыт с vision, audio и video моделями
* понимание трансформеров, contrastive learning, joint embeddings
* умение быстро разбирать и воспроизводить идеи из научных статей.
**Будет плюсом**
* опыт с VLA / Embodied AI / Robotics
* знание self-supervised и multimodal pretraining подходов
* опыт работы с streaming video/audio
* публикации, open-source вклад или исследовательский опыт.* комфортный современный офис рядом с м. Кутузовская
* гибрид (Москва, СПБ)
* годовая премия
* корпоративный спортзал и зоны отдыха
* расширенный ДМС + страхование для семьи
* ипотека для сотрудников выгоднее (-1/3 от текущей процентной ставки)
* бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
* вознаграждение за рекомендацию друзей в команду Сбера