Расписание

  • Время в программе указано для вашего часового пояса .

  • Программа предварительная, в ней возможны изменения.

Скачать расписание
  • Data Tools

    8
    • Доклад

      Spark — всё!

      Поговорим про Spark. Что он дал дата-инженерам? Почему многие из нас используют именно его?

      Spark уже более 15 лет. С какими проблемами мы сталкиваемся при его использовании? Появилось ли что-то получше? Можно ли его уже чем-то заменить?

      Почему %SQLEngineName% тормозит? Как это исправить? Бенчмарки, open source и тому подобное.

    • Доклад

      GP2S3 по-взрослому

      Мы ежедневно выгружаем из Greenplum в S3 сотни терабайтов. О том, какие подводные камни мы собрали и что в итоге получилось, вы сможете послушать в нашем докладе.

    • Доклад

      Spark Connect: новый подход для работы с Apache Spark

      Расскажу о Spark Connect — новом подходе для работы с Apache Spark, который позволяет разрабатывать клиентскую часть приложения на любом языке и не зависеть от JVM. Поговорим об архитектуре Spark Connect и ее отличиях от классического Spark. Вы узнаете о проекте, в котором мы использовали Spark Connect API для C++.

    • Доклад

      Способы организации CDC в PostgreSQL и почему Debezium из коробки может не решить всех проблем

      Получение событий изменений из источников — довольно частая задача, которая может решаться разными способами. Одно из таких решений — Debezium. Но так ли с ним все просто и всегда ли именно это решение наилучшее? Постараюсь ответить на эти вопросы и рассмотреть Debezium с точки зрения сложностей, которые возникают на пути решения задачи захвата изменений.

    • Доклад

      StarRocks — реальность современной платформы данных

      Платформа данных в нашей компании существует уже более 5 лет, за это время она вобрала множество модных (и не очень) решений. Расскажу, как мы пытались выбрать наше будущее среди ClickHouse, Greenplum и Trino, а нашли StarRocks. 

    • Доклад

      Сторонние движки исполнения для Apache Spark: опыт использования

      Опыт применения движков исполнения Comet и Gluten (Velox) — от введения и особенностей сборки до результатов тестирования на реальных ETL. Расскажу о подводных камнях и неочевидных моментах, покажу результаты работы и рассмотрю кейсы, когда эти движки полезны, а когда вообще не работают.

    • Доклад

      Apache Spark SQL. Расширяй и управляй

      Как настроить и доработать Apache Spark под свои задачи без переписывания фреймворка. Расскажу о подходах к расширению функциональности Spark SQL без вмешательства в исходный код платформы. Вы узнаете о создании собственных источников данных, разработке пользовательских функций для специализированной обработки и внедрении правил оптимизации, адаптирующихся под различные запросы.

  • Data Management

    7
    • Доклад

      Мониторинг DWH: от метаданных до DataOps

      Практический кейс внедрения мониторинга DWH от Skyeng: от архитектуры метаданных до автоматизированных проверок качества данных и перехода к DataOps-практикам.

    • Доклад

      DataRentgen: чем плох lineage в OSS Data Catalog и как сделать лучше

      Описание пути разработки open source data lineage-решения на базе OpenLineage. Сравнение с другими опенсорс-решениями — OpenMetadata, DataHub, Marquez — и причина, почему отказались от них в пользу своей разработки. Нет, это не очередной кастомный Data Catalog :)

    • Доклад

      Как в хранилище Яндекс Маркета начали писать документацию к объектам

      Как Яндекс Маркет начал писать документацию. Вы узнаете, как это происходило и с какими проблемами столкнулась компания. Рассмотрим разные подходы к описанию метаданных в хранилищах, сравним их между собой и поймем, стоит ли идти по этому пути.

    • Доклад

      Хорошие данные не случаются случайно

      Хорошие данные не случаются случайно. Поделюсь опытом создания инструмента, который помогает проверять данные автоматически — быстро, гибко и без боли.

    • Доклад

      Data Catalog: искажение метаданных или продуктовый подход

      Подходы к загрузке метаданных в Data Catalog достаточно часто рассматривают в линейном виде: минимум изменений, максимальное сохранение «истины». Но так ли это правильно?

    • Доклад

      Дата-контракты: ожидания от данных без иллюзий

      Как в Яндексе удалось навести порядок в хаосе распределенных данных с помощью внутреннего сервиса дата-контрактов — без централизации, но с понятной ответственностью и прозрачными договоренностями.

    • Доклад

      Что такое metastore и с чем его едят

      Что такое metastore, как он работает в экосистеме больших данных, какие решения существуют на рынке и почему мы решили разработать собственный. Поделюсь практическим опытом, архитектурой и уроками, которые мы извлекли.

  • Architecture of Data Platforms

    7
  • Use Cases

    4
  • AI/LLM in Data

    4
  • Database Internals

    3
  • DQ

    2
  • MPP

    1
    • Доклад

      DWH на StarRocks: год в production

      Реальный опыт построения DWH на StarRocks: архитектура, кейсы применения, подводные камни. Оправдал ли StarRocks наши ожидания.

  • Без темы

    3
    • Доклад

      Lightning Talks

      Lightning talks — это отличный формат, чтобы динамично обсудить тему и найти единомышленников. Вас ждут 20-минутные доклады на профессиональные темы и живые обсуждения.

    • Обсуждение

      Закрытие конференции SmartData 2025

      Подводим итоги конференции, вспоминаем яркие моменты и рассказываем о дальнейших планах. Заходите в зал или подключайтесь к трансляции, чтобы ничего не пропустить!

Скоро добавим еще больше докладов

Мы активно дополняем программу. Подписывайтесь на нашу рассылку, чтобы быть в курсе.

Подписаться