ML-разработчик в инфраструктуру данных для еком-сценариев

Наша команда собирает и готовит данные для еком-среза Яндекс Поиска. Ищем опытного ML-разработчика, который поможет сделать товарный поиск лучше и удобнее для пользователя. Ждём, что вы разбираетесь в NLP и занимались продуктовой разработкой.ML для парсинга
Вам предстоит обучать и внедрять модели для извлечения названия, цены, наличия и других атрибутов товаров. Нужно будет использовать разные подходы: DSSM, CatBoost, BERT, LLM (YaGPT и аналоги), гибридные пайплайны (rule-based + ML). Качество данных
Вы будете строить системы оценки качества товарных документов, использовать ручную разметку и VLM для контроля качества. Эксперименты и R&D
Нужно будет искать баланс между скоростью и качеством моделей, экспериментировать с подходами — от регулярных выражений до LLM, выполнять полный цикл ML-разработки: сбор датасета → обучение → продакшн → мониторинг. Индексация и краулинг
Вы будете разрабатывать алгоритмы приоритизации обхода сайтов, максимизировать полноту и свежесть поискового индекса, работать со всей структурой сайтов: каталогами, карточками товаров и страницами с общей информацией. Больше об ML в Яндексе — в канале Yandex for ML* Уверенно понимаете классическое ML * Работали с NLP: BERT-подобными моделями, эмбеддингами и т. п. * Доводили модели до продакшна * Умеете формулировать ML-задачи и выбирать подходящие методы * Понимаете баланс между качеством и вычислительными ресурсами * Хотите работать с большими данными и сложными системами* Работали с LLM: YaGPT, GPT-подобными моделями * Знаете C++ и готовы писать на нём

Similar jobs