Доклад

От ручного труда к автоматической генерации проверок качества данных

  • На русском языке
Презентация pdf

В любом проекте по построению хранилищ данных очень важен вопрос контроля качества данных. Это достаточно рутинный и трудозатратный процесс, подверженный влиянию человеческого фактора.

Чтобы сократить эти факторы, наша команда разработала универсальный процесс автоматизации data quality. Важно было сделать легко масштабируемый единый инструмент для мониторинга качества данных, который позволит быстро внедрять процессы data quality в любые продукты, основанные на данных. В разработке всего процесса применяли технологии Airflow, Python, Spark, Hive, Vertica, Grafana.

Будет полезно data-инженерам, data-аналитикам и всем, кто задумывается о внедрении data quality в свои процессы либо развивает свою систему data quality.

Спикеры

Приглашенные эксперты

  • Галина Баурина

    Компания: Инновационный центр «Безопасный транспорт» ГКУ ЦОДД

Расписание