Милена Булкина
Компания: Т-Банк
Shuffle, который возникает при обработке больших данных, — дорогостоящaя операция и оказывает сильное влияние на время выполнения пайплайна. С помощью уменьшения количества shuffle-данных можно существенно ускорить время выполнения последовательности задач.
Рассмотрим существующие алгоритмы для shuffle. Предложу альтернативный подход, который минимизирует количество перемещаемых данных с учетом возможного перекоса данных на узлах.
Будет интересно дата-инженерам и разработчикам.
Компания: Т-Банк
Компания: ИЦ «Сильный искусственный интеллект в промышленности» (Университет ИТМО)