Открытие конференции SmartData 2025
Говорим о расписании, сессиях и делимся информацией. Приходите в зал или подключайтесь онлайн, чтобы узнать, что вас будет ждать в ближайшее время!
Время в программе указано для вашего часового пояса .
Программа предварительная, в ней возможны изменения.
Говорим о расписании, сессиях и делимся информацией. Приходите в зал или подключайтесь онлайн, чтобы узнать, что вас будет ждать в ближайшее время!
Описание пути разработки open source data lineage-решения на базе OpenLineage. Сравнение с другими опенсорс-решениями — OpenMetadata, DataHub, Marquez — и причина, почему отказались от них в пользу своей разработки. Нет, это не очередной кастомный Data Catalog :)
МТС Web Services (MWS)
Детальный обзор алгоритмов векторного поиска, наиболее популярных в современных системах управления базами данных.
Как Яндекс Маркет начал писать документацию. Вы узнаете, как это происходило и с какими проблемами столкнулась компания. Рассмотрим разные подходы к описанию метаданных в хранилищах, сравним их между собой и поймем, стоит ли идти по этому пути.
Яндекс Маркет
Как настроить и доработать Apache Spark под свои задачи без переписывания фреймворка. Расскажу о подходах к расширению функциональности Spark SQL без вмешательства в исходный код платформы. Вы узнаете о создании собственных источников данных, разработке пользовательских функций для специализированной обработки и внедрении правил оптимизации, адаптирующихся под различные запросы.
Честный знак
Что такое metastore, как он работает в экосистеме больших данных, какие решения существуют на рынке и почему мы решили разработать собственный. Поделюсь практическим опытом, архитектурой и уроками, которые мы извлекли.
Positive Technologies
Практический кейс внедрения мониторинга DWH от Skyeng: от архитектуры метаданных до автоматизированных проверок качества данных и перехода к DataOps-практикам.
Skyeng
Хорошие данные не случаются случайно. Поделюсь опытом создания инструмента, который помогает проверять данные автоматически — быстро, гибко и без боли.
Arenadata Catalog
Расскажу о Spark Connect — новом подходе для работы с Apache Spark, который позволяет разрабатывать клиентскую часть приложения на любом языке и не зависеть от JVM. Поговорим об архитектуре Spark Connect и ее отличиях от классического Spark. Вы узнаете о проекте, в котором мы использовали Spark Connect API для C++.
Яндекс
Как задеплоить безопасный, мощный и масштабируемый LLM-сервис для крупной компании: с UI, API, модерацией и с поддержкой моделей под совершенно разные задачи.
Kaspersky
Как внедрить Data Quality-инструмент с распределенной архитектурой, обеспечивающий бесперебойную работу для большого числа команд и являющийся единой точкой правды о качестве данных в системах компании.
MTС Web Services (MWS)
МТС Web Services (MWS)
Получение событий изменений из источников — довольно частая задача, которая может решаться разными способами. Одно из таких решений — Debezium. Но так ли с ним все просто и всегда ли именно это решение наилучшее? Постараюсь ответить на эти вопросы и рассмотреть Debezium с точки зрения сложностей, которые возникают на пути решения задачи захвата изменений.
Поговорим про Spark. Что он дал дата-инженерам? Почему многие из нас используют именно его?
Spark уже более 15 лет. С какими проблемами мы сталкиваемся при его использовании? Появилось ли что-то получше? Можно ли его уже чем-то заменить?
Почему %SQLEngineName% тормозит? Как это исправить? Бенчмарки, open source и тому подобное.
Navio
Расскажем, как в Wildberries реализована ресерч-платформа на базе JupyterHub и Kubernetes для более чем 600 дата-сайентистов, решающих задачи в таких областях, как CV, NLP, OCR, рекомендации.
Wildberries & Russ
Wildberries & Russ
Обсудим ключевые вызовы, стоящие перед Apache Iceberg, а также перспективы развития технологии.
CedrusData
База уже обложена read replica, но все равно не тянет — что делать?
Расскажу о том, как мы выбирали отказоустойчивую и масштабируемую СУБД для хранения финансовых данных, какие варианты отсеяли и по каким критериям. Почему мы остановились на YugabyteDB и про наш опыт с ней.
01.tech
Платформа данных в нашей компании существует уже более 5 лет, за это время она вобрала множество модных (и не очень) решений. Расскажу, как мы пытались выбрать наше будущее среди ClickHouse, Greenplum и Trino, а нашли StarRocks.
Реальный опыт построения DWH на StarRocks: архитектура, кейсы применения, подводные камни. Оправдал ли StarRocks наши ожидания.
Передовые Платежные Решения
Потенциал применения AI для автоматизации процессов Data Governance на стороне пользователей платформы данных.
Т-Банк
Как мы в Т-Банке построили свой BI-инструмент на базе Apache Superset, перестроили культуру BI, сделали синергию BI-аналитиков и разработчиков нашего BI-инструмента и успешно мигрировали с Табло.
T-Банк
Расскажу, как кодеки LZ4, ZSTD, Delta и DoubleDelta помогают увеличить скорость запросов и сократить объем хранения. Вы узнаете, какие вызовы возникают при их использовании в промышленных средах.
GlowByte
Подходы к загрузке метаданных в Data Catalog достаточно часто рассматривают в линейном виде: минимум изменений, максимальное сохранение «истины». Но так ли это правильно?
Т-Банк
Опыт применения движков исполнения Comet и Gluten (Velox) — от введения и особенностей сборки до результатов тестирования на реальных ETL. Расскажу о подводных камнях и неочевидных моментах, покажу результаты работы и рассмотрю кейсы, когда эти движки полезны, а когда вообще не работают.
Честный знак
Обзор и сравнение существующих библиотек Python и самописного инструмента профилирования для анализа качества данных. Описание функционала инструмента.
Газпромбанк.Тех
Газпромбанк.Тех
История о том, как небольшая команда инженеров внедрила Hadoop с полноценной безопасностью на базе Kerberos и Ranger без остановки бизнес-процессов.
Детский мир
YDB прошла значительный путь развития от применения базовых методов векторного поиска до создания масштабируемого и эффективного векторного индекса. В докладе — подробный разбор этапов эволюции векторного поиска в YDB, включая анализ сложностей и инженерных решений.
Расскажу, как мы используем Airflow на практике: от болей с sensors до удобства с datasets, от статичных DAG c кучей файлов — к динамическим и от стандартных возможностей — к собственным кастомным решениям, которые не оставят равнодушными тех, кто сталкивался с реальной эксплуатацией Airflow.
Инновационный центр «Безопасный транспорт»
Как мы переходили с платформы на базе Vertica, HDFS к новой архитектуре Dota 2 (второй версии нашей внутренней аналитической платформы), основанной на Apache Ozone (S3), Trino, Spark и Iceberg. Поделюсь опытом выбора хранилища, объясню, почему отказались от HDFS и почему выбрали Apache Ozone как on-prem реализацию S3.
Островок!
Расскажу про ИИ-ассистента, который помогает пользователям получать ответы на вопросы по данным. Вы узнаете, как мы в X5 Tech управляем качеством ответов и как данные и описание данных влияют на конечный результат.
X5 Tech
Подводим итоги конференции, вспоминаем яркие моменты и рассказываем о дальнейших планах. Заходите в зал или подключайтесь к трансляции, чтобы ничего не пропустить!
Мы активно дополняем программу. Подписывайтесь на нашу рассылку, чтобы быть в курсе.