Использование вероятностных структур данных для оптимизации ETL-процессов

На русском языке

При обработке больших данных с использованием фреймворка Apache Spark часто возникает большое количество промежуточной информации, шафл и спилл, что негативно влияет на производительность не только самого ETL-процесса, но и всего вычислительного комплекса. Для снижения этих факторов используется предварительная фильтрация информации.

Существует большое количество способов фильтрации, различающихся по эффективности. В докладе рассмотрю использование вероятностных структур данных в качестве фильтров. Пройдем путь от списков, минуя броадкаст джоин (broadcast hash join, BHJ) и блум фильтр джоин (bloom filter join, BFJ), к своей реализации ленивого сегментного фильтра на основе XOR-функций.

Предложенный метод будет интересен дата-инженерам, использующим в своей практике Apache Spark, а также архитекторам данных для принятия решения о схемах обработки данных.

Спикеры

Дмитрий Вертлиб
Компания: Честный знак

Приглашенные эксперты

Никита Благодарный
Компания: Честный знак

Другие доклады по теме «Use Cases»

Расписание

Использование вероятностных структур данных для оптимизации ETL-процессов

Спикеры

Дмитрий Вертлиб

Приглашенные эксперты

Никита Благодарный

Другие доклады по теме «Use Cases»