ML-инженер / инженер данных (Middle)

Наша команда занимается разработкой внутренних сервисов для разработчиков. Это коллаборативная платформа для организации разработки, портал баз знаний и интерактивным ассистентом, помогающий проходить весь путь разработки продукта от идеи до внедрения. Сейчас мы активно внедряем ИИ в различные сценарии использования продуктов. Наш стек: Python, Postgres, LangChain, OpenSearch. Код в Bitbucket, трекер JIRA, CI/CD Jenkins, закатываем в Docker, деплоим в облако.* Проектирование и поддержка ETL/ELT-процессов для данных под RAG: сбор, очистка, нормализация, чанкинг, генерация эмбеддингов. * Создание AI-агентов (в том числе мульти-агентных систем). * Разработка и поддержка Python-сервисов. * Работа с «сырыми» данными из внутренних систем Сбера (wiki, тикеты, логи, код) — их структурирование и подготовка для LLM. * Исследование и подготовка данных для обучения моделей, adhoc. * Тестирование собственного кода и ревью чужого.* Опыт разработки AI-агентов (в том числе мульти-агентных систем) с использованием библиотек оркестрации (LangGraph, LangChain, AutoGen, CrewAI). * Понимание и практическое применение MCP протокола (Model Context Protocol) для интеграции агентов с внешними инструментами и сервисами. * Глубокое знание RAG (Retrieval-Augmented Generation): построение пайплайнов индексации, продвинутые техники ретрива (HyDE, self-query, reranking), работа с чанкингом и эмбеддингами. * Опыт работы с LLM через API и локально: системные промпты, few-shot, инструменты (function/tool calling), потоковая обработка (streaming). * Хорошее знание Python (асинхронное программирование, типизация, dataclasses/Pydantic) для разработки сервисов на базе агентов. * Git, Docker (сборка образов, композ, работа в облачном окружении). * Графовые базы данных. **Будет плюсом (и это важно для нас):** * Опыт подготовки неидеальных, «живых» данных — парсинг, дедупликация, обработка мусора, нормализация текста из разных источников (Markdown, Confluence, Jira, код-базы). * Понимание метрик качества данных для RAG — полнота, связность чанков, релевантность эмбеддингов, затраты на индексацию vs качество retrieval. * Готовность копаться в логах и трейсах агента, чтобы понять, почему он плохо находит нужный контекст (и исправить это на уровне данных или промпта).* Официальное трудоустройство согласно ТК РФ * Белая заработная плата (оклад + годовая премия) * Возможность обучения за счет компании * Страхование (от несчастных случаев, ДМС) * График работы: 5/2 (офис или гибрид) * Оздоровительные программы для детей сотрудников * Дисконт-программы от компаний партнеров (фитнес, страхование, туризм) * Льготное кредитование, ипотека * Экспертная и талантливая команда, у которой можно многому научиться * Культура открытости и взаимовыручки: наша команда состоит из людей, вовлеченных в процесс и не безразличных к тому, что они делают * Высокая скорость процессов и возможность быстро увидеть свой вклад * Возможность влиять на процесс и результат * Адрес: БЦ Даниловский Форт., М. Тульская / Нагатинская / Верхние Котлы

ML-инженер / инженер данных (Middle)

Similar jobs

Python разработчик

Python разработчик

Développeur web Magnolia - full remote

Разработчик агентов (Python)

DevOps инженер (команда ВАРМ)

Middle+/Senior Python Developer (Цифровые поверхности Салют)