Открытие конференции SmartData 2025
Говорим о расписании, сессиях и делимся информацией. Приходите в зал или подключайтесь онлайн, чтобы узнать, что вас будет ждать в ближайшее время!
Время в программе указано для вашего часового пояса .
Программа предварительная, в ней возможны изменения.
00:00 | Обсуждение Открытие конференции SmartData 2025Говорим о расписании, сессиях и делимся информацией. Приходите в зал или подключайтесь онлайн, чтобы узнать, что вас будет ждать в ближайшее время! | ||
---|---|---|---|
00:00 | Перерыв | ||
00:00 | Доклад DataRentgen: чем плох lineage в OSS Data Catalog и как сделать лучшеОписание пути разработки open source data lineage-решения на базе OpenLineage. Сравнение с другими опенсорс-решениями — OpenMetadata, DataHub, Marquez — и причина, почему отказались от них в пользу своей разработки. Нет, это не очередной кастомный Data Catalog :)
| Доклад Алгоритмы векторного поиска в современных базах данныхДетальный обзор алгоритмов векторного поиска, наиболее популярных в современных системах управления базами данных. | |
00:00 | Перерыв | ||
00:00 | Доклад Как в хранилище Яндекс Маркета начали писать документацию к объектамКак Яндекс Маркет начал писать документацию. Вы узнаете, как это происходило и с какими проблемами столкнулась компания. Рассмотрим разные подходы к описанию метаданных в хранилищах, сравним их между собой и поймем, стоит ли идти по этому пути.
| Доклад Apache Spark SQL. Расширяй и управляйКак настроить и доработать Apache Spark под свои задачи без переписывания фреймворка. Расскажу о подходах к расширению функциональности Spark SQL без вмешательства в исходный код платформы. Вы узнаете о создании собственных источников данных, разработке пользовательских функций для специализированной обработки и внедрении правил оптимизации, адаптирующихся под различные запросы.
| |
00:00 | Перерыв | ||
00:00 | Доклад Что такое metastore и с чем его едятЧто такое metastore, как он работает в экосистеме больших данных, какие решения существуют на рынке и почему мы решили разработать собственный. Поделюсь практическим опытом, архитектурой и уроками, которые мы извлекли.
| ||
00:00 | Перерыв | ||
00:00 | Доклад Spark Connect: новый подход для работы с Apache SparkРасскажу о Spark Connect — новом подходе для работы с Apache Spark, который позволяет разрабатывать клиентскую часть приложения на любом языке и не зависеть от JVM. Поговорим об архитектуре Spark Connect и ее отличиях от классического Spark. Вы узнаете о проекте, в котором мы использовали Spark Connect API для C++.
| ||
00:00 | Перерыв | ||
00:00 | Доклад Способы организации CDC в PostgreSQL и почему Debezium из коробки может не решить всех проблемПолучение событий изменений из источников — довольно частая задача, которая может решаться разными способами. Одно из таких решений — Debezium. Но так ли с ним все просто и всегда ли именно это решение наилучшее? Постараюсь ответить на эти вопросы и рассмотреть Debezium с точки зрения сложностей, которые возникают на пути решения задачи захвата изменений. | ||
00:00 | Перерыв | ||
00:00 | Доклад Перспективы развития Apache IcebergОбсудим ключевые вызовы, стоящие перед Apache Iceberg, а также перспективы развития технологии.
| ||
00:00 | Нетворкинг и афтерпати |
00:00 | Доклад StarRocks — реальность современной платформы данныхПлатформа данных в нашей компании существует уже более 5 лет, за это время она вобрала множество модных (и не очень) решений. Расскажу, как мы пытались выбрать наше будущее среди ClickHouse, Greenplum и Trino, а нашли StarRocks. | ||
---|---|---|---|
00:00 | Перерыв | ||
00:00 | Доклад Как непростые времена вынудили нас построить лучший BIКак мы в Т-Банке построили свой BI-инструмент на базе Apache Superset, перестроили культуру BI, сделали синергию BI-аналитиков и разработчиков нашего BI-инструмента и успешно мигрировали с Табло.
| ||
00:00 | Перерыв | ||
00:00 | Доклад Сторонние движки исполнения для Apache Spark: опыт использованияОпыт применения движков исполнения Comet и Gluten (Velox) — от введения и особенностей сборки до результатов тестирования на реальных ETL. Расскажу о подводных камнях и неочевидных моментах, покажу результаты работы и рассмотрю кейсы, когда эти движки полезны, а когда вообще не работают.
| ||
00:00 | Перерыв | ||
00:00 | Доклад Hadoop Is Not Dead — Just Secure!История о том, как небольшая команда инженеров внедрила Hadoop с полноценной безопасностью на базе Kerberos и Ranger без остановки бизнес-процессов.
| ||
00:00 | Перерыв | ||
00:00 | Доклад Алгоритмы векторного поиска в YDBYDB прошла значительный путь развития от применения базовых методов векторного поиска до создания масштабируемого и эффективного векторного индекса. В докладе — подробный разбор этапов эволюции векторного поиска в YDB, включая анализ сложностей и инженерных решений. | ||
00:00 | Перерыв | ||
00:00 | Доклад Как мы улучшили процессы по работе с данными в Airflow: практические кейсыРасскажу, как мы используем Airflow на практике: от болей с sensors до удобства с datasets, от статичных DAG c кучей файлов — к динамическим и от стандартных возможностей — к собственным кастомным решениям, которые не оставят равнодушными тех, кто сталкивался с реальной эксплуатацией Airflow.
| ||
00:00 | Перерыв | ||
00:00 | Доклад Как мы строили lakehouse на OzoneКак мы переходили с платформы на базе Vertica, HDFS к новой архитектуре Dota 2 (второй версии нашей внутренней аналитической платформы), основанной на Apache Ozone (S3), Trino, Spark и Iceberg. Поделюсь опытом выбора хранилища, объясню, почему отказались от HDFS и почему выбрали Apache Ozone как on-prem реализацию S3.
| ||
00:00 | Обсуждение Закрытие конференции SmartData 2025Подводим итоги конференции, вспоминаем яркие моменты и рассказываем о дальнейших планах. Заходите в зал или подключайтесь к трансляции, чтобы ничего не пропустить! |
Мы активно дополняем программу. Подписывайтесь на нашу рассылку, чтобы быть в курсе.