Олег Молчанов
Магнит
Три года мы эксплуатировали проприетарное решение для управления данными (бизнес-глоссарий, каталог, качество, алертинг) на трех инструментах. Когда встал вопрос технологической независимости, пришлось не просто мигрировать, а пересобрать всё с нуля на open-source с учетом накопленной экспертности.
Расскажу, как мы построили экосистему Magnit Data, где каталог, глоссарий, DQ-движок, дашборды и чат-бот работают как единый механизм.
Что разберем:
— Кастомные сканеры в OpenMetadata. Почему стандартных коннекторов OMD недостаточно для трех production-платформ (включая legacy старше 15 лет).
— Архитектура собственных сканеров: метаданные из нестандартных источников, инкрементальная загрузка. Как решили конфликт «OMD ожидает одно, а реальность — другое».
— VERA — собственный DQ-движок на базе Soda. Почему не взяли готовый Great Expectations или Monte Carlo, а написали обертку над Soda.
— Интеграция с OMD: профилирование, проверки, алертинг — как это живет в одном контуре с каталогом.
— Дашборд «Готовность и здоровье данных» на Superset + ClickHouse.
— Методика расчета показателей, на которых завязано целеполагание всех команд, развивающих платформы данных.
— Как перешли от «алерт-шума» к единому KPI здоровья, который не обмануть и который реально коррелирует с проблемами на продe.
— Data Agent — чат-бот как интерфейс к экосистеме.
— Архитектура агента, встроенного в Magnit Data: LLM + RAG на метаданных OMD + action-движок.
Кейсы: поиск данных по описанию на естественном языке, регистрация DQ-инцидентов, предоставление выгрузок и визуализаций без участия инженера. Демо на реальных сценариях: «покажи качество витрины X за вчера» → ответ с графиком.
ЦА — Инженеры и архитекторы, которые строят или развивают data-платформы, внедряют data governance/quality инструменты и хотят увидеть работающий open-source стек с нетривиальными кастомизациями.
Магнит