Александр Мадумаров
Компания: Инновационный центр «Безопасный транспорт» ГКУ ЦОДД
В любом проекте по построению хранилищ данных очень важен вопрос контроля качества данных. Это достаточно рутинный и трудозатратный процесс, подверженный влиянию человеческого фактора.
Чтобы сократить эти факторы, наша команда разработала универсальный процесс автоматизации data quality. Важно было сделать легко масштабируемый единый инструмент для мониторинга качества данных, который позволит быстро внедрять процессы data quality в любые продукты, основанные на данных. В разработке всего процесса применяли технологии Airflow, Python, Spark, Hive, Vertica, Grafana.
Будет полезно data-инженерам, data-аналитикам и всем, кто задумывается о внедрении data quality в свои процессы либо развивает свою систему data quality.
Компания: Инновационный центр «Безопасный транспорт» ГКУ ЦОДД
Компания: Инновационный центр «Безопасный транспорт» ГКУ ЦОДД