Доклад

CI/CD в большом on-premise Datalake-проекте

  • На русском языке
Презентация pdf

У нас есть большой монорепозиторий, в котором хранится разнородный код для нашего Datalake — Scala-код для Spark, DDL для различных БД, DAGи Airflow, служебные скрипты. Расскажем, как мы структурировали репозиторий и строили для него CI/CD-процессы, чтобы они:

  • Работали инкрементально — собирали / тестировали / деплоили только те части, которые менялись.
  • Работали параллельно, чтобы обеспечивать полную сборку / деплой за приемлемое время.
  • Собирали один и тот же код под разные версии Spark.
  • Учитывали при тестировании реальное окружение целевых систем.
  • Были максимально демократичны (доступны широкому кругу разработчиков) и при этом безопасными для прода.

Обсудим и многое другое, в том числе грабли, по которым пришлось походить.

Спикеры

Расписание