К основному контентуEN

Если у вас есть билет, авторизуйтесь для просмотра видео

ДокладДата: 14.09 / Начало: 00:00 – Конец: 00:00

Быстрая обработка данных в Data Lake с помощью Trino

Database Internals

Презентация pdf

Trino это массивно-параллельный SQL-движок для обработки больших данных из различных источников, Одним из ключевых сценариев использования Trino является интерактивный анализ информации из озер данных. Так как узлы Trino не хранят данные, возникает сложный вопрос: как обеспечить высокую производительность обработки хранящейся на удаленных серверах информации? И насколько такой подход конкурентоспособен по сравнению с классическими хранилищами данных?

Спикер рассмотрит реализацию и практическое использование ключевых оптимизаций, которые позволяют Trino и коммерческим продуктам на его основе быстро «перемалывать» данные из вашего озера: использование метаданных Parquet и ORC для уменьшения количества зачитываемых данных (project/filter/aggregate pushdown), динамическая фильтрация (runtime filtering), поздняя материализация колонок (late materialization), а также целых три локальных кэша: кэш метаданных, кэш данных и кэш промежуточных результатов запросов.

#trino
#cedrusdata
#optimization

Спикеры

Владимир Озеров
Querify Labs

Приглашенные эксперты

Артем Алиев

Другие доклады по теме «Database Internals»
- Смотреть запись
  Разгоним запросы: как быстро готовить ClickHouse
  Кузьма Лешаков
  Yandex Cloud
  Зал 1
- Смотреть запись
  ACID-транзакции в Apache Cassandra 5.0
  Александр Волочнев
  Datastax
- Смотреть запись
  Как мы адаптировали динамические таблицы YTsaurus для хранения блобов
  Максим Бабенко
  Яндекс
  Зал 1
- Смотреть запись
  Сжатие, шифрование и не только: меняем поведение и гарантии распределенной базы данных
  Антон Виноградов
  Apache Software Foundation
  Зал 1
- Смотреть запись
  Планирование миллиардов задач каждый день
  Игнат Колесниченко
  YTsaurus
- Смотреть запись
  Движение к универсальности: гибридная OLTP-база с поддержкой OLAP-запросов
  Алексей Дмитриев
  Яндекс
  Зал 2
- Смотреть запись
  Архитектура распределенного SQL-движка для аналитических запросов
  Алексей Озерицкий
  Яндекс
  Зал 2
- Смотреть запись
  Предиктивный анализ паразитной нагрузки на кластерах GreenPlum
  Марк Лебедев
  GlowByte Consulting
  Павел Тернюк
  Data Sapience
  Зал 2
- Смотреть запись
  Применение TLA+ для эффективного тестирования распределенных систем
  Никита Синяченко
  ВКонтакте
  Евгений Чернацкий
  ВКонтакте
  Зал 3
- Смотреть запись
  Чего стоит достижение линеаризуемости в распределенной системе
  Сергей Петренко
  Tarantool
  Зал 3
- Смотреть запись
  Глубокое погружение в производительность запросов
  Петр Зайцев
  Percona

Расписание