Доклад

Оптимизация распределения партиций в последовательности задач распределенной обработки данных

  • На русском языке
Презентация pdf

Shuffle, который возникает при обработке больших данных, — дорогостоящaя операция и оказывает сильное влияние на время выполнения пайплайна. С помощью уменьшения количества shuffle-данных можно существенно ускорить время выполнения последовательности задач.

Рассмотрим существующие алгоритмы для shuffle. Предложу альтернативный подход, который минимизирует количество перемещаемых данных с учетом возможного перекоса данных на узлах.

Будет интересно дата-инженерам и разработчикам.

Спикеры

Приглашенные эксперты

  • Сергей Терёшкин

    Компания: ИЦ «Сильный искусственный интеллект в промышленности» (Университет ИТМО)

Расписание