Доклад

DataRentgen: чем плох lineage в OSS Data Catalog и как сделать лучше

На русском языке

Столкнувшись с задачей сбора data lineage из ETL/ELT-процессов, основанных на Apache Spark и Apache Airflow, наша команда надеялась, что все будет довольно просто и получится использовать какое-то из готовых опенсорс-решений: OpenMetadata, DataHub, Marquez, OpenAtlas. Все оказалось не так радужно, с ходу ни один инструмент нам не подошел. Мы начали разрабатывать собственное решение — сервис DataRentgen.

В докладе опишу путь к разработке инструмента длиною в полтора года: требования пользователей, RnD опенсорс-решений и их недостатки, немного метаний между разными технологиями сбора и хранения lineage и к чему мы в конечном итоге пришли. DataRentgen все еще в активной разработке, но уже собирает довольно много полезных данных.

Спикеры

Доклады