ML-инженер / инженер данных (Middle)
Наша команда занимается разработкой внутренних сервисов для разработчиков. Это коллаборативная платформа для организации разработки, портал баз знаний и интерактивным ассистентом, помогающий проходить весь путь разработки продукта от идеи до внедрения. Сейчас мы активно внедряем ИИ в различные сценарии использования продуктов.
Наш стек: Python, Postgres, LangChain, OpenSearch. Код в Bitbucket, трекер JIRA, CI/CD Jenkins, закатываем в Docker, деплоим в облако.* Проектирование и поддержка ETL/ELT-процессов для данных под RAG: сбор, очистка, нормализация, чанкинг, генерация эмбеддингов.
* Создание AI-агентов (в том числе мульти-агентных систем).
* Разработка и поддержка Python-сервисов.
* Работа с «сырыми» данными из внутренних систем Сбера (wiki, тикеты, логи, код) — их структурирование и подготовка для LLM.
* Исследование и подготовка данных для обучения моделей, adhoc.
* Тестирование собственного кода и ревью чужого.* Опыт разработки AI-агентов (в том числе мульти-агентных систем) с использованием библиотек оркестрации (LangGraph, LangChain, AutoGen, CrewAI).
* Понимание и практическое применение MCP протокола (Model Context Protocol) для интеграции агентов с внешними инструментами и сервисами.
* Глубокое знание RAG (Retrieval-Augmented Generation): построение пайплайнов индексации, продвинутые техники ретрива (HyDE, self-query, reranking), работа с чанкингом и эмбеддингами.
* Опыт работы с LLM через API и локально: системные промпты, few-shot, инструменты (function/tool calling), потоковая обработка (streaming).
* Хорошее знание Python (асинхронное программирование, типизация, dataclasses/Pydantic) для разработки сервисов на базе агентов.
* Git, Docker (сборка образов, композ, работа в облачном окружении).
* Графовые базы данных.
**Будет плюсом (и это важно для нас):**
* Опыт подготовки неидеальных, «живых» данных — парсинг, дедупликация, обработка мусора, нормализация текста из разных источников (Markdown, Confluence, Jira, код-базы).
* Понимание метрик качества данных для RAG — полнота, связность чанков, релевантность эмбеддингов, затраты на индексацию vs качество retrieval.
* Готовность копаться в логах и трейсах агента, чтобы понять, почему он плохо находит нужный контекст (и исправить это на уровне данных или промпта).* Официальное трудоустройство согласно ТК РФ
* Белая заработная плата (оклад + годовая премия)
* Возможность обучения за счет компании
* Страхование (от несчастных случаев, ДМС)
* График работы: 5/2 (офис или гибрид)
* Оздоровительные программы для детей сотрудников
* Дисконт-программы от компаний партнеров (фитнес, страхование, туризм)
* Льготное кредитование, ипотека
* Экспертная и талантливая команда, у которой можно многому научиться
* Культура открытости и взаимовыручки: наша команда состоит из людей, вовлеченных в процесс и не безразличных к тому, что они делают
* Высокая скорость процессов и возможность быстро увидеть свой вклад
* Возможность влиять на процесс и результат
* Адрес: БЦ Даниловский Форт., М. Тульская / Нагатинская / Верхние Котлы