К основному контентуEN

Если у вас есть билет, авторизуйтесь для просмотра видео

Доклад

Use Cases

Дата: 04.09 / Начало: 00:00 – Конец: 00:00

Использование вероятностных структур данных для оптимизации ETL-процессов

На русском языкеСложность -

Презентация pdf

При обработке больших данных с использованием фреймворка Apache Spark часто возникает большое количество промежуточной информации, шафл и спилл, что негативно влияет на производительность не только самого ETL-процесса, но и всего вычислительного комплекса. Для снижения этих факторов используется предварительная фильтрация информации.

Существует большое количество способов фильтрации, различающихся по эффективности. В докладе рассмотрю использование вероятностных структур данных в качестве фильтров. Пройдем путь от списков, минуя броадкаст джоин (broadcast hash join, BHJ) и блум фильтр джоин (bloom filter join, BFJ), к своей реализации ленивого сегментного фильтра на основе XOR-функций.

Предложенный метод будет интересен дата-инженерам, использующим в своей практике Apache Spark, а также архитекторам данных для принятия решения о схемах обработки данных.

Спикеры

Дмитрий Вертлиб
Честный знак

Приглашенные эксперты

Никита Благодарный
Честный знак

Другие доклады по теме «Use Cases»
- Смотреть запись
  dbt в деле: реальные кейсы и лайфхаки
  Антон Александров
  Детский мир
  Зал 2На русском языкеСложность -
- Смотреть запись
  От ручного труда к автоматической генерации проверок качества данных
  Александр Мадумаров
  Инновационный центр «Безопасный транспорт» ГКУ ЦОДД
  Зал 3На русском языкеСложность -
- Смотреть запись
  Как мы сократили TTM создания дашбордов
  Анар Багиров
  Авито
  Зал 2На русском языкеСложность -
- Смотреть запись
  От хайпа до продакшена: data mesh на Airflow + dbt
  Никита Юрасов
  Toloka
  Леонид Кожинов
  Toloka
  На русском языкеСложность -
- Смотреть запись
  Как построить пайплайн RAG с использованием LLamaIndex
  Алсу Нурутдинова
  Positive Technologies
  Алина Кочева
  Positive Technologies
  На русском языкеСложность -
- Смотреть запись
  Каждый байт на вес золота. Опыт построения DMP в рекламе Яндекса
  Алексей Стыценко
  Яндекс
  Зал 1На русском языкеСложность -
- Смотреть запись
  The State of Data, RU Edition
  Олег Кочергин
  Positive Technologies
  Зал 2На русском языкеСложность -
- Смотреть запись
  Как мы тестировали 5 способов загрузки данных в Greenplum и что из этого вышло
  Татьяна Дидова
  АЭРО
  Зал 2На русском языкеСложность -
- Смотреть запись
  Эффективные сервисы ML Inference нейросетей в Яндекс рекламе
  Дмитрий Ульянин
  Яндекс
  На русском языкеСложность -
- Смотреть запись
  Оптимизации сериализатора ВКонтакте
  Илья Кокорин
  VK
  Илья Асадуллин
  VK
  Зал 3На русском языкеСложность -

Расписание