Доклад

Что такое metastore и с чем его едят

На русском языке

Metastore — это ключевой компонент любой современной платформы данных, который отвечает за управление метаданными. Без него работа с большими данными становится неэффективной и сложной, так как метаданные играют роль «карты» для навигации.

Расскажу, что такое metastore, какие задачи он решает и почему его выбор напрямую влияет на успех проекта в области больших данных. Затронем, как metastore интегрируется с такими компонентами, как Compute-движки, объектные хранилища и системы управления доступом.

Существует множество популярных решений класса metastore, каждое из них имеет свои особенности. В докладе рассмотрим популярные решения на рынке: Hive Metastore, Nessie, Unity Catalog, Polaris, AWS Glue и проанализируем их сильные и слабые стороны.

В нашей команде мы столкнулись с требованиями, которые существующие решения не могли полностью удовлетворить, поэтому решили разработать собственный metastore. Уделим внимание нашему опыту: какие задачи стояли перед metastore, как он устроен, с какими сложностями мы столкнулись при его создании, как реализованы интеграции с другими компонентами платформы. Поделюсь инсайтами, архитектурными решениями и тем, что бы мы сделали иначе, начни всё сначала.

Metastore — не просто «скучный» инструмент для хранения метаданных. Это важнейший элемент, определяющий удобство и эффективность работы с данными. Выбор правильного решения или разработка собственного metastore могут стать ключевым фактором успеха в реализации проектов больших данных. Я надеюсь, что мой доклад поможет вам лучше понять, как правильно подходить к выбору и использованию этого инструмента.

Спикеры

Доклады