LLM-аналитик в Эйчартех

Эйчартех Яндекса создаёт и поддерживает экосистему внутренних сервисов для ежедневной работы десятков тысяч сотрудников. Ищем специалиста, который умеет думать бизнес-результатами: находить, где AI экономит время и деньги, измерять эффект и итеративно улучшать продукт.Оценка качества LLM-продуктов
Вам предстоит создавать метрики качества для каждого продукта с учётом их специфики, выстраивать и поддерживать Evaluation Harness, внедрять LLM-as-a-judge: проектировать судей под конкретные задачи, заниматься их калибровкой и контролем смещений. Также нужно будет собирать ground truth датасета и контролировать его качество. Промпт-инжиниринг и эксперименты
Вы будете участвовать в разработке и итерации промптов для продуктовых задач: генерации, классификации, извлечения информации, суммаризации. Предстоит формировать гипотезы о причинах деградаций и проверять их через эксперименты. Аналитика и влияние на результат
Нужно будет находить места, где больше всего ручной работы и где AI принесёт максимальную пользу. В ваши задачи войдёт диагностика просадок метрик: поиск причин и локализация проблем. Вы будете внедрять лучшие практики в Evaluation Harness. Важно глубоко понимать бизнес-метрики и эффект от внедрения LLM. Больше об ML в Яндексе — в канале Yandex for ML* Имеете более трёх лет коммерческого опыта работы с ML-решениями, не менее года — с LLM/RAG * Работали с OpenAI API, Hugging Face или их аналогами * Пишете код на Python * Умеете работать с данными и строить аналитику * Способны измерять и улучшать качество LLM-продуктов* Работали с evaluation-фреймворками: LM Evaluation Harness, OpenAI Evals, HELM или аналогами * Делали тонкую настройку сложных RAG-пайплайнов * Участвовали в разработке диалоговых сервисов или AI-агентов

Similar jobs