Дмитрий Вертлиб
Компания: Честный знак
При обработке больших данных с использованием фреймворка Apache Spark часто возникает большое количество промежуточной информации, шафл и спилл, что негативно влияет на производительность не только самого ETL-процесса, но и всего вычислительного комплекса. Для снижения этих факторов используется предварительная фильтрация информации.
Существует большое количество способов фильтрации, различающихся по эффективности. В докладе рассмотрю использование вероятностных структур данных в качестве фильтров. Пройдем путь от списков, минуя броадкаст джоин (broadcast hash join, BHJ) и блум фильтр джоин (bloom filter join, BFJ), к своей реализации ленивого сегментного фильтра на основе XOR-функций.
Предложенный метод будет интересен дата-инженерам, использующим в своей практике Apache Spark, а также архитекторам данных для принятия решения о схемах обработки данных.
Компания: Честный знак
Компания: Честный знак