Инженер данных в Доставку
Яндекс Доставка — динамично развивающийся бизнес. Мы выходим за рамки традиционной логистики и запускаем инновационные проекты. Ищем инженера данных, который будет разрабатывать надёжные ETL-пайплайны, повышать стабильность и качество данных и помогать бизнесу получать ценную аналитику.Разработка и поддержка ETL-процессов
Вы будете проектировать и поддерживать ETL-пайплайны для обработки данных — от источников до дашбордов, работая в составе V-team своего домена данных. Повышение качества и стабильности данных
Вам предстоит обеспечивать стабильность и производительность витрин и дашбордов, разрабатывать механизмы контроля качества данных и оптимизировать существующие процессы обработки. Поддержка инфраструктуры данных
Вы будете поддерживать работу ключевых компонентов платформы (ClickHouse, Greenplum, YTsaurus, ETL-сервисы), взаимодействуя с инфраструктурными командами. Техническая поддержка аналитиков
Вы станете основным контактным лицом для аналитиков по техническим вопросам работы с данными и инструментами платформы.* Отлично знаете Python * Работаете с Greenplum, Vertica, ClickHouse или любыми другими MPP-СУБД * Работаете с большими объёмами данных в Hadoop (HDFS, Spark, Hive), YTsaurus или аналогичных экосистемах * Понимаете принципы проектирования хранилищ данных, ETL-фреймворков, а также систем мониторинга состояния хранилища * Умеете оптимизировать запросы и оценивать вычислительную нагрузку* Создавали сложные высоконагруженные ETL- и ELT-пайплайны (знаете code-driven ETL Luigi, Airflow) * Разрабатывали процессы обработки сложных событий (CEP) почти в реальном времени (Kafka Streams, Spark, Flink и пр.) * Работали с инструментами стека Python для Data Science (Jupyter, pandas, SciPy, Matplotlib, Bokeh и пр.) * Разрабатывали проверки качества данных, мониторинга стабильности и использования данных * Понимаете ценность данных для принятия решений бизнесом * Коммитите в публичные репозитории или пишете статьи с примерами работ
Вы будете проектировать и поддерживать ETL-пайплайны для обработки данных — от источников до дашбордов, работая в составе V-team своего домена данных. Повышение качества и стабильности данных
Вам предстоит обеспечивать стабильность и производительность витрин и дашбордов, разрабатывать механизмы контроля качества данных и оптимизировать существующие процессы обработки. Поддержка инфраструктуры данных
Вы будете поддерживать работу ключевых компонентов платформы (ClickHouse, Greenplum, YTsaurus, ETL-сервисы), взаимодействуя с инфраструктурными командами. Техническая поддержка аналитиков
Вы станете основным контактным лицом для аналитиков по техническим вопросам работы с данными и инструментами платформы.* Отлично знаете Python * Работаете с Greenplum, Vertica, ClickHouse или любыми другими MPP-СУБД * Работаете с большими объёмами данных в Hadoop (HDFS, Spark, Hive), YTsaurus или аналогичных экосистемах * Понимаете принципы проектирования хранилищ данных, ETL-фреймворков, а также систем мониторинга состояния хранилища * Умеете оптимизировать запросы и оценивать вычислительную нагрузку* Создавали сложные высоконагруженные ETL- и ELT-пайплайны (знаете code-driven ETL Luigi, Airflow) * Разрабатывали процессы обработки сложных событий (CEP) почти в реальном времени (Kafka Streams, Spark, Flink и пр.) * Работали с инструментами стека Python для Data Science (Jupyter, pandas, SciPy, Matplotlib, Bokeh и пр.) * Разрабатывали проверки качества данных, мониторинга стабильности и использования данных * Понимаете ценность данных для принятия решений бизнесом * Коммитите в публичные репозитории или пишете статьи с примерами работ