ML-разработчик в команду претрейна Alice AI VLM
Наша команда строит мультимодальные foundation-модели и отвечает за претрейн — этап, когда закладываются базовые способности модели и во многом определяется потолок её качества. Мы ищем решения, которые масштабируются, устойчиво работают и улучшают понимание мира через разные модальности.Развивать претрейн мультимодальных моделей
Вам предстоит исследовать архитектурные решения, рецепты и режимы обучения для VLM. Нужно будет находить подходы, которые улучшают базовые способности модели, усиливают связь между визуальной и текстовой модальностями и дают устойчивый прирост качества не только на открытых бенчмарках, но и в реальных продуктовых задачах. Работать с петабайтами мультимодальных данных
Качество претрейна во многом определяется данными. Вам предстоит работать с огромными массивами мультимодальных данных из разных доменов: image-text, OCR, документы, таблицы, графики, интерфейсы, видео, UGC. Важно принимать решения о составе обучающих данных: какие домены, форматы и пропорции усиливают модель, исследовать scaling laws, как снижать шум и превращать работу с данными в масштабируемый pipeline. Работать с large-scale-обучением
Претрейн VLM — это длинные и ресурсоёмкие обучения, где важна сильная инженерная база. Вы будете работать с распределённым обучением, профилировать узкие места, следить за эффективностью использования GPU, улучшать стабильность запусков и воспроизводимость экспериментов. Больше об ML в Яндексе — в канале Yandex for ML* Получили опыт в CV, NLP и хорошо понимаете устройство современных LLМ/VLM * Понимаете, как устроено распределённое обучение больших моделей * Умеете формулировать исследовательские гипотезы и проверять их экспериментально * Аккуратно ставите эксперименты, корректно сравниваете подходы и умеете выделять реальные улучшения * Умеете писать рабочий и понятный код и доводить идеи до воспроизводимого результата* Обучали большие модели или работали с крупными DL-системами * Работали с pretrain-пайплайнами для LLМ или VLM * Знакомы с Megatron, DeepSpeed, FSDP, PyTorch Distributed или аналогичными инструментами
Вам предстоит исследовать архитектурные решения, рецепты и режимы обучения для VLM. Нужно будет находить подходы, которые улучшают базовые способности модели, усиливают связь между визуальной и текстовой модальностями и дают устойчивый прирост качества не только на открытых бенчмарках, но и в реальных продуктовых задачах. Работать с петабайтами мультимодальных данных
Качество претрейна во многом определяется данными. Вам предстоит работать с огромными массивами мультимодальных данных из разных доменов: image-text, OCR, документы, таблицы, графики, интерфейсы, видео, UGC. Важно принимать решения о составе обучающих данных: какие домены, форматы и пропорции усиливают модель, исследовать scaling laws, как снижать шум и превращать работу с данными в масштабируемый pipeline. Работать с large-scale-обучением
Претрейн VLM — это длинные и ресурсоёмкие обучения, где важна сильная инженерная база. Вы будете работать с распределённым обучением, профилировать узкие места, следить за эффективностью использования GPU, улучшать стабильность запусков и воспроизводимость экспериментов. Больше об ML в Яндексе — в канале Yandex for ML* Получили опыт в CV, NLP и хорошо понимаете устройство современных LLМ/VLM * Понимаете, как устроено распределённое обучение больших моделей * Умеете формулировать исследовательские гипотезы и проверять их экспериментально * Аккуратно ставите эксперименты, корректно сравниваете подходы и умеете выделять реальные улучшения * Умеете писать рабочий и понятный код и доводить идеи до воспроизводимого результата* Обучали большие модели или работали с крупными DL-системами * Работали с pretrain-пайплайнами для LLМ или VLM * Знакомы с Megatron, DeepSpeed, FSDP, PyTorch Distributed или аналогичными инструментами