CI/CD в большом on-premise Datalake-проекте

DataOps

Сложность -

У нас есть большой монорепозиторий, в котором хранится разнородный код для нашего Datalake — Scala-код для Spark, DDL для различных БД, DAGи Airflow, служебные скрипты. Расскажем, как мы структурировали репозиторий и строили для него CI/CD-процессы, чтобы они:

Работали инкрементально — собирали / тестировали / деплоили только те части, которые менялись.
Работали параллельно, чтобы обеспечивать полную сборку / деплой за приемлемое время.
Собирали один и тот же код под разные версии Spark.
Учитывали при тестировании реальное окружение целевых систем.
Были максимально демократичны (доступны широкому кругу разработчиков) и при этом безопасными для прода.

Обсудим и многое другое, в том числе грабли, по которым пришлось походить.