К основному контентуEN

Если у вас есть билет, авторизуйтесь для просмотра видео

ДокладДата: 04.09 / Начало: 00:00 – Конец: 00:00

Оптимизация распределения партиций в последовательности задач распределенной обработки данных

Database Internals

Презентация pdf

Shuffle, который возникает при обработке больших данных, — дорогостоящaя операция и оказывает сильное влияние на время выполнения пайплайна. С помощью уменьшения количества shuffle-данных можно существенно ускорить время выполнения последовательности задач.

Рассмотрим существующие алгоритмы для shuffle. Предложу альтернативный подход, который минимизирует количество перемещаемых данных с учетом возможного перекоса данных на узлах.

Будет интересно дата-инженерам и разработчикам.

Спикеры

Милена Булкина
Т-Банк

Приглашенные эксперты

Сергей Терёшкин
ИЦ «Сильный искусственный интеллект в промышленности» (Университет ИТМО)

Другие доклады по теме «Database Internals»
- Смотреть запись
  One More Way to Make Backup in Ignite
  Николай Ижиков
  Apache Software Foundation
  Зал 2
- Смотреть запись
  Как мы делаем облачный Greenplum
  Леонид Борчук
  Yandex Cloud
  Зал 3
- Смотреть запись
  Как мы Apache Kafka на Redpanda меняли
  Роман Ананьев
  Авито
  Зал 2
- Смотреть запись
  Пишем свой cluster manager для Apache Spark
  Александр Токарев
  Яндекс
  Зал 1
- Смотреть запись
  Шардированный не значит распределенный: что важно знать, когда PostgreSQL мало
  Евгений Иванов
  Яндекс
  Олег Бондарь
  Яндекс
- Смотреть запись
  Выбрасываем Java и кратно ускоряем Spark/Presto… Или пока нет?
  Павел Солодовников
  CedrusData
  Зал 3
- Смотреть запись
  Data sketches — быстро, дешево и (почти) точно!
  Сергей Жемжицкий
  Arenadata
  Зал 3
- Смотреть запись
  Schema Registry: Ultimate Guide
  Тимофей Брунько
  Yandex Cloud
  Зал 2
- Смотреть запись
  Apache Arrow: быстрее, ниже, сложнее
  Евгений Глотов
  Autotech
  Зал 1
- Смотреть запись
  Storage для lake
  Александр Казанский
  Т-Банк
  Зал 3

Расписание