Начало основного контента

От одной большой ETL-джобы до процесса проведения экспериментов над дата-пайплайнами

День 2

RU

Команда Profitero столкнулась со следующей проблемой: была одна огромная ETL-джоба, которая состоит из множества итераций, где каждая итерация это методология. Предположим, мы хотим применить изменения на итерацию i, это повлияет на итерацию i+1, потому что она вычисляется на основе результатов итерации i.

Возникают следующие вопросы:

  1. Как применить изменения методологии, одной из итераций, при этом изменения не должны иметь импакт на продакшене?
  2. Как сделать так, чтобы DS-команды могла проводить эти изменения без участия DE-команды или хотя бы минимизировать их участие в проведение таких экспериментов?
  3. Как одновременно проводить 10 экспериментов, чтобы выбрать наилучшие изменения для внедрение в продакшен?

Технологии: Apache Spark, Apache Airflow, Jupyter, Apache Zeppelin, Docker Swarm, LakeFS.

Аудитория: доклад будет интересен тем, кто сталкивается с проблемой проведения экспериментов в пайплайнах.

  • #process
  • #pipepline
  • #etl

Спикеры

Приглашенные эксперты