
Максим Мартынов
MTС Web Services (MWS)
Столкнувшись с задачей сбора data lineage из ETL/ELT-процессов, основанных на Apache Spark и Apache Airflow, наша команда надеялась, что все будет довольно просто и получится использовать какое-то из готовых open source-решений: OpenMetadata, DataHub, Marquez. Все оказалось не так радужно: с ходу ни один инструмент нам не подошел сразу и по функциональности и по производительности. Мы начали разрабатывать собственное решение — сервис DataRentgen.
В докладе опишу путь к разработке инструмента длиною в полтора года: требования, RnD open source-технологий и их недостатки, немного метаний между разными подходами к сбору и хранению lineage и к чему мы в конечном итоге пришли. DataRentgen все еще в активной разработке, но уже собирает довольно много полезных данных.
MTС Web Services (MWS)