Доклады

  • Программа предварительная, в ней возможны изменения.

  • Доклад

    Что такое metastore и с чем его едят

    Что такое metastore, как он работает в экосистеме больших данных, какие решения существуют на рынке и почему мы решили разработать собственный. Поделюсь практическим опытом, архитектурой и уроками, которые мы извлекли.

  • Доклад

    Spark Connect: новый подход для работы с Apache Spark

    Расскажу о Spark Connect — новом подходе для работы с Apache Spark, который позволяет разрабатывать клиентскую часть приложения на любом языке и не зависеть от JVM. Поговорим об архитектуре Spark Connect и ее отличиях от классического Spark. Вы узнаете о проекте, в котором мы использовали Spark Connect API для C++.

  • Доклад

    DataRentgen: чем плох lineage в OSS Data Catalog и как сделать лучше

    Описание пути разработки open source data lineage-решения на базе OpenLineage + Kafka + FastStream + FastAPI. Сравнение с другими опенсорс-решениями — OpenMetadata, DataHub, Marquez, OpenAtlas — и почему отказались от них в пользу своей разработки. Нет, это не очередной кастомный Data Catalog :)

  • Доклад

    StarRocks — реальность современной платформы данных

    Платформа данных в нашей компании существует уже более 5 лет, за это время она вобрала множество модных (и не очень) решений. Расскажу, как мы пытались выбрать наше будущее среди ClickHouse, Greenplum и Trino, а нашли StarRocks. 

  • Доклад

    Как непростые времена вынудили нас построить лучший BI

    Как мы в Т-Банке построили свой BI-инструмент на базе Apache Superset, перестроили культуру BI, сделали синергию BI-аналитиков и разработчиков нашего BI-инструмента и успешно мигрировали с Табло.

  • Доклад

    Способы организации CDC в PostgreSQL и почему Debezium из коробки может не решить всех проблем

    Получение событий изменений из источников — довольно частая задача, которая может решаться разными способами. Одно из таких решений — Debezium. Но так ли с ним все просто и всегда ли именно это решение наилучшее? Постараюсь ответить на эти вопросы и рассмотреть Debezium с точки зрения сложностей, которые возникают на пути решения задачи захвата изменений.

  • Доклад

    Сторонние движки исполнения для Apache Spark: опыт использования

    Опыт применения движков исполнения Comet и Gluten (Velox) — от введения и особенностей сборки до результатов тестирования на реальных ETL. Расскажу о подводных камнях и неочевидных моментах, покажу результаты работы и рассмотрю кейсы, когда эти движки полезны, а когда вообще не работают.

  • Доклад

    Hadoop Is Not Dead — Just Secure!

    История о том, как небольшая команда инженеров внедрила Hadoop с полноценной безопасностью на базе Kerberos и Ranger без остановки бизнес-процессов.

  • Доклад

    Алгоритмы векторного поиска в YDB

    YDB прошла значительный путь развития от применения базовых методов векторного поиска до создания масштабируемого и эффективного векторного индекса. В докладе — подробный разбор этапов эволюции векторного поиска в YDB, включая анализ сложностей и инженерных решений. 

  • Доклад

    Как мы улучшили процессы по работе с данными в Airflow: практические кейсы

    Расскажу, как мы используем Airflow на практике: от болей с sensors до удобства с datasets, от статичных DAG c кучей файлов — к динамическим и от стандартных возможностей — к собственным кастомным решениям, которые не оставят равнодушными тех, кто сталкивался с реальной эксплуатацией Airflow.

  • Доклад

    Как в хранилище Яндекс Маркета начали писать документацию к объектам

    Как Яндекс Маркет начал писать документацию. Вы узнаете, как это происходило и с какими проблемами столкнулась компания. Рассмотрим разные подходы к описанию метаданных в хранилищах, сравним их между собой и поймем, стоит ли идти по этому пути.

  • Доклад

    Apache Spark SQL. Расширяй и управляй

    Как настроить и доработать Apache Spark под свои задачи без переписывания фреймворка. Расскажу о подходах к расширению функциональности Spark SQL без вмешательства в исходный код платформы. Вы узнаете о создании собственных источников данных, разработке пользовательских функций для специализированной обработки и внедрении правил оптимизации, адаптирующихся под различные запросы.

Скоро добавим еще больше докладов

Мы активно дополняем программу. Подписывайтесь на нашу рассылку, чтобы быть в курсе.

Подписаться