Разработчик формата хранения данных в динамических таблицах YTsaurus

Мы разрабатываем и поддерживаем сервис YTsaurus. Вам предстоит заниматься слоем хранения данных и адаптировать его под задачи быстрой аналитики, чтобы сделать YTsaurus более эффективным для хранения и обработки документных (иерархических) данных. Ждём, что вы любите алгоритмы и владеете С++.Иерархический формат данных
Одна из важных задач — разработать формат сжатия для иерархических данных, который позволит и эффективно читать большими диапазонами, и быстро собирать один конкретный документ или его часть. Подобная задача требует как работы с различными механизмами сжатия, так и низкоуровневой инженерной проработки на уровне процессора и доступа к памяти. Вам потребуются и SIMD-инструкции, и адаптация кода под иерархию памяти на процессоре. Мы ожидаем, что вы любите алгоритмы и эффективное программирование на С++! Формат исторических данных для задачи аналитики
В динамических таблицах (так мы называем NewSQL-компоненту YTsaurus) традиционно используется формат данных, заточенный под обработку транзакций. История в таких данных хранится вместе с временными метками, что позволяет обеспечить уровень изоляции snapshot isolation. Такие данные избыточны в задачах аналитики: для них лучше подходят более простые форматы. Вам предстоит найти компромисс и адаптировать хранение истории в динтаблицах так, чтобы приспособить их к транзакционно-аналитическим задачам. Аналитические индексы
В аналитике применяются свои индексы: SMA, star-tree. Вам нужно будет добавить их в форматы данных, реализовать построение и использование в запросах. Эта задача потребует погружаться в весь цикл обработки SQL-запроса. Больше о бэкенде в Яндексе — в канале Yandex for Backend* Умеете программировать на C++ * Знаете и продолжаете узнавать новые алгоритмы * Любите погружаться в особенности работы железа * Хотите строить надёжный сервис для пользователей* Работали с низкоуровневыми оптимизациями: подгоняли алгоритм под иерархию памяти и конвейер процессора * Разбираетесь в алгоритмах сжатия, особенно быстрого * Знакомы с общими принципами построения СУБД и обработки SQL-запросов

Similar jobs