Trino (Presto) DB: Zero copy lakehouse

Сложность -

PrestoDB (теперь и Trino) была создана в Facebook для предоставления интерактивного доступа к данным, хранящимся в Hive/Hadoop. С тех пор Hadoop объявили мертвым, Spark и S3 заменяют Hive и HDFS, а в индустрии обсуждают микросервисы, IoT и мульти/гибридные облака. Но аналитические запросы медленны, ETL все так же занимает всю ночь и большинство данных в облаке никому не нужны. А еще они опять поменяли схему данных в источнике! Можно ничего не копировать? Да — использовать Trino или его конкурентов (Dremio, Drill). Работа с данными из первоисточников, объединение и обогащение их, запросы с субсекундной скоростью. Конечно, существуют проблемы, но есть и решения. Поговорим, обо всем этом, о скрытых возможностях, о новой функциональности, что есть в проекте или в его форках.

Доклад нацелен на дата-инженеров и архитекторов облачных систем, и предлагает интересный вариант интеграции источников данных.

#data virtualization
#queryengine
#queryoptimization
#tooling

Спикеры

Артем Алиев
Huawei

Приглашенные эксперты

Сергей Коротиков
Huawei

Расписание

Trino (Presto) DB: Zero copy lakehouse

Спикеры

Артем Алиев

Приглашенные эксперты

Сергей Коротиков