Доклад

Миграция инструментов управления данными на OMD в масштабах Магнита

Три года мы эксплуатировали проприетарное решение для управления данными (бизнес-глоссарий, каталог, качество, алертинг) на трех инструментах. Когда встал вопрос технологической независимости, пришлось не просто мигрировать, а пересобрать всё с нуля на open-source с учетом накопленной экспертности.

Расскажу, как мы построили экосистему Magnit Data, где каталог, глоссарий, DQ-движок, дашборды и чат-бот работают как единый механизм.

Что разберем:

— Кастомные сканеры в OpenMetadata. Почему стандартных коннекторов OMD недостаточно для трех production-платформ (включая legacy старше 15 лет).

— Архитектура собственных сканеров: метаданные из нестандартных источников, инкрементальная загрузка. Как решили конфликт «OMD ожидает одно, а реальность — другое».

— VERA — собственный DQ-движок на базе Soda. Почему не взяли готовый Great Expectations или Monte Carlo, а написали обертку над Soda.

— Интеграция с OMD: профилирование, проверки, алертинг — как это живет в одном контуре с каталогом.

— Дашборд «Готовность и здоровье данных» на Superset + ClickHouse.

— Методика расчета показателей, на которых завязано целеполагание всех команд, развивающих платформы данных.

— Как перешли от «алерт-шума» к единому KPI здоровья, который не обмануть и который реально коррелирует с проблемами на продe.

— Data Agent — чат-бот как интерфейс к экосистеме.

— Архитектура агента, встроенного в Magnit Data: LLM + RAG на метаданных OMD + action-движок.

Кейсы: поиск данных по описанию на естественном языке, регистрация DQ-инцидентов, предоставление выгрузок и визуализаций без участия инженера. Демо на реальных сценариях: «покажи качество витрины X за вчера» → ответ с графиком.

ЦА — Инженеры и архитекторы, которые строят или развивают data-платформы, внедряют data governance/quality инструменты и хотят увидеть работающий open-source стек с нетривиальными кастомизациями.

Спикеры

Доклады