Артемий Наумов
Лемана Тех
В докладе я хочу поделиться опытом нашей компании в части миграции процесса сборки витрин данных со старого «монолитного» решения на Greenplum и хранимых процедурах на DLH-стек. В него входит:
— хранение данных в s3 в Iceberg формате + REST каталог (Nessie);
— отдельный compute на Trino (несколько кластеров под разные типы нагрузки);
— dbt (dbt-trino) для sql кода моделей витрин данных, автоматического lineage и документации;
— Airflow для оркестрации (cosmos для генерации дагов поверх dbt моделей).
Рассмотрим процесс миграции и нюансы, с которыми мы столкнулись в работе, на примере широкой витрины фактов с нетривиальной бизнес-логикой, разберем не только особенности синтаксиса Trino и материализаций dbt, но и посмотрим на всю обвязку вокруг проекта (ci/cd, observability, bi) — что мы сделали для автоматизации тестирования пользовательского кода и мониторинга состояния наших сервисов и данных.
Проблема, о которой мы хотим рассказать: миграция на DLH data stack не бесшовная и гладкая — в процессе переезда приходится решать множество сопутствующих задач, без которых DLH может быть даже менее эффективным, чем legacy-решение.
Целевая аудитория: инженеры данных, архитекторы данных, руководители DE-практики в компании.
Лемана Тех