NLP engineer (GigaChat)

Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России.* генерировать синтетические данные: математика, код, произвольная синтетика с сидами - документами из Web * исследовать токенизацию и ее влияние на качество модели (возможно написание статей) * решать задачи кластеризации миллиардов документов * исследовать разные факторы, которыми обладают текстовые данные * генерировать Vision данные для прокачки VLM * разрабатывать новые алгоритмы парсинга HTML и исследовать его влияние на качество модели * исследовать зависимости между pretrain данными и agentic capabilities итоговой модели * разрабатывать стабильную инфраструктуру, которая будет поддерживать проведение сотен и тысяч экспериментов над данными.* имеешь коммерческий релевантный опыт связанный с NLP или построением инфраструктуры для данных от двух лет. Будет плюсом: * навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом * опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов * инструментальное владение AI для анализа, генерации и автоматизации * опыт с MapReduce системами.* комфортный современный офис рядом с м. Кутузовская * гибридный формат работы (2 дня в офисе, 3 дня на удалёнке) * ежегодный пересмотр зарплаты, годовая премия * корпоративный спортзал и зоны отдыха * система обучения для профессионального и карьерного развития * расширенный полис ДМС с первого дня работы и страхование для семьи * льготная программа ипотеки для сотрудников * бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров * вознаграждение за рекомендацию друзей в команду Сбера.