Оптимизация распределения партиций в последовательности задач распределенной обработки данных

На русском языке

Shuffle, который возникает при обработке больших данных, — дорогостоящaя операция и оказывает сильное влияние на время выполнения пайплайна. С помощью уменьшения количества shuffle-данных можно существенно ускорить время выполнения последовательности задач.

Рассмотрим существующие алгоритмы для shuffle. Предложу альтернативный подход, который минимизирует количество перемещаемых данных с учетом возможного перекоса данных на узлах.

Будет интересно дата-инженерам и разработчикам.

Спикеры

Милена Булкина
Компания: Т-Банк

Приглашенные эксперты

Сергей Терёшкин
Компания: ИЦ «Сильный искусственный интеллект в промышленности» (Университет ИТМО)

Другие доклады по теме «Database Internals»

Расписание

Оптимизация распределения партиций в последовательности задач распределенной обработки данных

Спикеры

Милена Булкина

Приглашенные эксперты

Сергей Терёшкин

Другие доклады по теме «Database Internals»