Юрий Горынцев
Arenadata Catalog
MDM-системы обычно строятся вокруг идеи единого центра мастер-данных. Но в реальных корпоративных и государственных ландшафтах не всегда можно просто скопировать данные в отдельный контур: мешают регуляторные ограничения, требования безопасности и распределенное владение данными.
В этом докладе я расскажу, как мы создавали MDM-систему, которая сопоставляет данные, но не хранит их у себя. Основной фокус будет на эволюции алгоритма сопоставления, который за время проекта претерпел несколько изменений, в основном в угоду скорости.
Разберем, как мы выработали правила сопоставления, как решили проблему того, что люди вообще-то меняют фамилии и не только их, и как собрать более полную золотую запись из нескольких, используя транзитивное сопоставление.
Ключевой вопрос доклада: может ли MDM сопоставлять мастер-данные, не становясь той банкой с данными, которая рано или поздно протечет?
Arenadata Catalog