Доклад

Витрины данных на Data Lakehouse: большой переезд с Greenplum 6

В докладе я хочу поделиться опытом нашей компании в части миграции процесса сборки витрин данных со старого «монолитного» решения на Greenplum и хранимых процедурах на DLH-стек. В него входит:

— хранение данных в s3 в Iceberg формате + REST каталог (Nessie);

— отдельный compute на Trino (несколько кластеров под разные типы нагрузки);

— dbt (dbt-trino) для sql кода моделей витрин данных, автоматического lineage и документации;

— Airflow для оркестрации (cosmos для генерации дагов поверх dbt моделей).

Рассмотрим процесс миграции и нюансы, с которыми мы столкнулись в работе, на примере широкой витрины фактов с нетривиальной бизнес-логикой, разберем не только особенности синтаксиса Trino и материализаций dbt, но и посмотрим на всю обвязку вокруг проекта (ci/cd, observability, bi) — что мы сделали для автоматизации тестирования пользовательского кода и мониторинга состояния наших сервисов и данных.

Проблема, о которой мы хотим рассказать: миграция на DLH data stack не бесшовная и гладкая — в процессе переезда приходится решать множество сопутствующих задач, без которых DLH может быть даже менее эффективным, чем legacy-решение.

Целевая аудитория: инженеры данных, архитекторы данных, руководители DE-практики в компании.

Спикеры

Доклады