Тип доклада: Доклад

Использование вероятностных структур данных для оптимизации ETL-процессов

  • Доклад на русском языке

При обработке больших данных с использованием фреймворка Apache Spark часто возникает большое количество промежуточной информации, шафл и спилл, что негативно влияет на производительность не только самого ETL-процесса, но и всего вычислительного комплекса. Для снижения этих факторов используется предварительная фильтрация информации.

Существует большое количество способов фильтрации, различающихся по эффективности. В докладе рассмотрю использование вероятностных структур данных в качестве фильтров. Пройдем путь от списков, минуя броадкаст джоин (broadcast hash join, BHJ) и блум фильтр джоин (bloom filter join, BFJ), к своей реализации ленивого сегментного фильтра на основе XOR-функций.

Предложенный метод будет интересен дата-инженерам, использующим в своей практике Apache Spark, а также архитекторам данных для принятия решения о схемах обработки данных.

Спикеры

Доклады