Доклады

Программа предварительная, в ней возможны изменения.

Доклад
Что такое metastore и с чем его едят
Что такое metastore, как он работает в экосистеме больших данных, какие решения существуют на рынке и почему мы решили разработать собственный. Поделюсь практическим опытом, архитектурой и уроками, которые мы извлекли.
- Михаил Иванов
  Positive Technologies
На русском языке
Доклад
Spark Connect: новый подход для работы с Apache Spark
Расскажу о Spark Connect — новом подходе для работы с Apache Spark, который позволяет разрабатывать клиентскую часть приложения на любом языке и не зависеть от JVM. Поговорим об архитектуре Spark Connect и ее отличиях от классического Spark. Вы узнаете о проекте, в котором мы использовали Spark Connect API для C++.
- Александр Токарев
  Яндекс
На русском языке
Доклад
DataRentgen: чем плох lineage в OSS Data Catalog и как сделать лучше
Описание пути разработки open source data lineage-решения на базе OpenLineage + Kafka + FastStream + FastAPI. Сравнение с другими опенсорс-решениями — OpenMetadata, DataHub, Marquez, OpenAtlas — и почему отказались от них в пользу своей разработки. Нет, это не очередной кастомный Data Catalog :)
- Максим Мартынов
  МТС Web Services (MWS)
На русском языке
Доклад
StarRocks — реальность современной платформы данных
Платформа данных в нашей компании существует уже более 5 лет, за это время она вобрала множество модных (и не очень) решений. Расскажу, как мы пытались выбрать наше будущее среди ClickHouse, Greenplum и Trino, а нашли StarRocks.
- Станислав Лысиков
На русском языке
Доклад
Как непростые времена вынудили нас построить лучший BI
Как мы в Т-Банке построили свой BI-инструмент на базе Apache Superset, перестроили культуру BI, сделали синергию BI-аналитиков и разработчиков нашего BI-инструмента и успешно мигрировали с Табло.
- Екатерина Щербакова
  T-Банк
На русском языке
Доклад
Способы организации CDC в PostgreSQL и почему Debezium из коробки может не решить всех проблем
Получение событий изменений из источников — довольно частая задача, которая может решаться разными способами. Одно из таких решений — Debezium. Но так ли с ним все просто и всегда ли именно это решение наилучшее? Постараюсь ответить на эти вопросы и рассмотреть Debezium с точки зрения сложностей, которые возникают на пути решения задачи захвата изменений.
- Никита Рьянов
На русском языке
Доклад
Сторонние движки исполнения для Apache Spark: опыт использования
Опыт применения движков исполнения Comet и Gluten (Velox) — от введения и особенностей сборки до результатов тестирования на реальных ETL. Расскажу о подводных камнях и неочевидных моментах, покажу результаты работы и рассмотрю кейсы, когда эти движки полезны, а когда вообще не работают.
- Никита Благодарный
  Честный знак
На русском языке
Доклад
Hadoop Is Not Dead — Just Secure!
История о том, как небольшая команда инженеров внедрила Hadoop с полноценной безопасностью на базе Kerberos и Ranger без остановки бизнес-процессов.
- Антон Александров
  Детский мир
На русском языке
Доклад
Алгоритмы векторного поиска в современных базах данных
Детальный обзор алгоритмов векторного поиска, наиболее популярных в современных системах управления базами данных.
- Александр Зевайкин
  YDB
На русском языке
Доклад
Алгоритмы векторного поиска в YDB
YDB прошла значительный путь развития от применения базовых методов векторного поиска до создания масштабируемого и эффективного векторного индекса. В докладе — подробный разбор этапов эволюции векторного поиска в YDB, включая анализ сложностей и инженерных решений.
- Александр Зевайкин
  YDB
На русском языке
Доклад
Как мы улучшили процессы по работе с данными в Airflow: практические кейсы
Расскажу, как мы используем Airflow на практике: от болей с sensors до удобства с datasets, от статичных DAG c кучей файлов — к динамическим и от стандартных возможностей — к собственным кастомным решениям, которые не оставят равнодушными тех, кто сталкивался с реальной эксплуатацией Airflow.
- Дмитрий Морозов
  Инновационный центр «Безопасный транспорт»
На русском языке
Доклад
Как в хранилище Яндекс Маркета начали писать документацию к объектам
Как Яндекс Маркет начал писать документацию. Вы узнаете, как это происходило и с какими проблемами столкнулась компания. Рассмотрим разные подходы к описанию метаданных в хранилищах, сравним их между собой и поймем, стоит ли идти по этому пути.
- Павел Колодкин
  Яндекс Маркет
На русском языке
Доклад
Apache Spark SQL. Расширяй и управляй
Как настроить и доработать Apache Spark под свои задачи без переписывания фреймворка. Расскажу о подходах к расширению функциональности Spark SQL без вмешательства в исходный код платформы. Вы узнаете о создании собственных источников данных, разработке пользовательских функций для специализированной обработки и внедрении правил оптимизации, адаптирующихся под различные запросы.
- Дмитрий Вертлиб
  Честный знак
На русском языке

Скоро добавим еще больше докладов

Мы активно дополняем программу. Подписывайтесь на нашу рассылку, чтобы быть в курсе.