AI/ML Engineer

Навыки: REST, Базы данных, Python, SQL. Квалификация: Senior. Специализации: ML разработчик.

Привет! 👋
Мы — команда, которая разрабатывает корпоративных AI-агентов и RAG-системы для умного поиска по внутренней документации. Часть наших решений уже в эксплуатации, часть — в активной разработке.
Сейчас мы ищем специалиста, который займётся качественной составляющей наших систем. Твоя задача — повышать качество RAG, выстраивать методологию оценки, тестирования, защиты, а также заниматься промпт-инжинирингом.
Важно: это прикладная позиция — мы не обучаем модели, а используем готовые через корпоративный шлюз. Так что весь фокус на инжиниринг, оценку и тонкую настройку поведения агентов.
Если тебя драйвит делать AI-решения надёжными, измеримыми и полезными — добро пожаловать в команду!

ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:

Повышение качества RAG-агентов на трёх направлениях: поиск по
технической документации, по нормативной базе, по бухгалтерской
документации;
Промпт-инжиниринг и контекст-инжиниринг для всех агентов команды;
Подготовка эталонных наборов оценки качества;
Реализация LLM-as-a-judge как методологии автоматических
регрессионных проверок;
Настройка защит (guards) для production-агентов: фильтры от
инъекций в промпт, валидация структуры и контента выходов,
защита от утечек ПДн, anti-hallucination механизмы;
A/B-тестирование промптов и моделей для подбора лучших конфигураций;
Тюнинг качества по сигналам обратной связи пользователей и
трассировкам из Langfuse.

Требования:

Python от 2 лет коммерческой разработки;
Практический опыт RAG-систем в продакшене: эмбеддинги, векторные
базы (Qdrant, FAISS или pgvector), переранжирование, чанкинг.
Опыт построения и поддержки как минимум одного RAG-решения от
начала до конца, не прототип;
Практический опыт оценки качества LLM-систем: подготовка эталонных
наборов, offline-метрики, LLM-as-judge, регрессионные проверки.
Опыт работы с фреймворками оценки (Ragas, DeepEval или аналоги);
Практический опыт настройки защит для LLM-приложений: защита от
инъекций в промпт, валидация структуры и контента выходов,
защита от утечек персональных данных;
Опыт промпт-инжиниринга и контекст-инжиниринга в реальных
проектах: итеративная настройка промптов, structured output,
function calling;
Понимание архитектуры RAG: стратегии нарезки документов, метаданные,
выбор моделей эмбеддингов, переранжирование, точность ссылок на
источник;
Практический опыт работы хотя бы с одним LLM-фреймворком:
LangChain, LangGraph, PydanticAI, OpenAI API или аналоги;
Практический опыт A/B-тестирования промптов и моделей в продакшене;
Опыт работы с агентскими протоколами (MCP) или собственным
tool-layer для агентов;
SQL и работа с реляционными базами на базовом уровне.