
Милена Булкина
Т-Банк
Shuffle, который возникает при обработке больших данных, — дорогостоящaя операция и оказывает сильное влияние на время выполнения пайплайна. С помощью уменьшения количества shuffle-данных можно существенно ускорить время выполнения последовательности задач.
Рассмотрим существующие алгоритмы для shuffle. Предложу альтернативный подход, который минимизирует количество перемещаемых данных с учетом возможного перекоса данных на узлах.
Будет интересно дата-инженерам и разработчикам.
Т-Банк
ИЦ «Сильный искусственный интеллект в промышленности» (Университет ИТМО)