
Максим Мартынов
МТС Web Services (MWS)
Столкнувшись с задачей сбора data lineage из ETL/ELT-процессов, основанных на Apache Spark и Apache Airflow, наша команда надеялась, что все будет довольно просто и получится использовать какое-то из готовых опенсорс-решений: OpenMetadata, DataHub, Marquez, OpenAtlas. Все оказалось не так радужно, с ходу ни один инструмент нам не подошел. Мы начали разрабатывать собственное решение — сервис DataRentgen.
В докладе опишу путь к разработке инструмента длиною в полтора года: требования пользователей, RnD опенсорс-решений и их недостатки, немного метаний между разными технологиями сбора и хранения lineage и к чему мы в конечном итоге пришли. DataRentgen все еще в активной разработке, но уже собирает довольно много полезных данных.
МТС Web Services (MWS)