Расписание

  • Время в программе указано для вашего часового пояса .

  • Программа предварительная, в ней возможны изменения.

Скачать расписание
  • Data Tools

    8
    • Доклад

      Spark — ВСЁ!

      Поговорим про Spark. Что он дал дата-инженерам? Почему многие из нас используют именно его?

      Spark уже более 15 лет. С какими проблемами мы сталкиваемся при его использовании? Появилось ли что-то получше? Можно ли его уже чем-то заменить?

      Почему %SQLEngineName% тормозит? Как это исправить? Бенчмарки, open source и тому подобное.

    • Доклад

      GP2S3 по-взрослому

      Мы ежедневно выгружаем из Greenplum в S3 сотни терабайтов. О том, какие подводные камни мы собрали и что в итоге получилось, вы сможете послушать в нашем докладе.

    • Доклад

      Spark Connect: новый подход для работы с Apache Spark

      Расскажу о Spark Connect — новом подходе для работы с Apache Spark, который позволяет разрабатывать клиентскую часть приложения на любом языке и не зависеть от JVM. Поговорим об архитектуре Spark Connect и ее отличиях от классического Spark. Вы узнаете о проекте, в котором мы использовали Spark Connect API для C++.

    • Доклад

      Debezium и PostgreSQL после happy-path: какие проблемы ждут в проде и как их решать

      Получение событий изменений из источников — довольно частая задача, которая может решаться разными способами. Одно из таких решений — Debezium. Но так ли с ним все просто и всегда ли именно это решение наилучшее? Постараюсь ответить на эти вопросы и рассмотреть Debezium с точки зрения сложностей, которые возникают на пути решения задачи захвата изменений.

    • Доклад

      StarRocks — реальность современной платформы данных

      Платформа данных в нашей компании существует уже более 5 лет, за это время она вобрала множество модных (и не очень) решений. Расскажу, как мы пытались выбрать наше будущее среди ClickHouse, Greenplum и Trino, а нашли StarRocks. 

    • Доклад

      Сторонние движки исполнения для Apache Spark: опыт использования

      Опыт применения движков исполнения Comet и Gluten (Velox) — от введения и особенностей сборки до результатов тестирования на реальных ETL. Расскажу о подводных камнях и неочевидных моментах, покажу результаты работы и рассмотрю кейсы, когда эти движки полезны, а когда вообще не работают.

    • Доклад

      Apache Spark SQL. Расширяй и управляй

      Как настроить и доработать Apache Spark под свои задачи без переписывания фреймворка. Расскажу о подходах к расширению функциональности Spark SQL без вмешательства в исходный код платформы. Вы узнаете о создании собственных источников данных, разработке пользовательских функций для специализированной обработки и внедрении правил оптимизации, адаптирующихся под различные запросы.

  • Data Management

    7
    • Доклад

      Мониторинг DWH: от метаданных до DataOps

      Практический кейс внедрения мониторинга DWH от Skyeng: от архитектуры метаданных до автоматизированных проверок качества данных и перехода к DataOps-практикам.

    • Доклад

      DataRentgen: как запилить yet another lineage, не привлекая внимания санитаров

      Описание пути разработки Open Source DataLineage-решения на базе OpenLineage. Сравнение с другими Open Source решениями — OpenMetadata, DataHub, Marquez — и причина, почему отказались от них в пользу своей разработки. Нет, это не очередной Data Catalog :)

    • Доклад

      Как в хранилище Яндекс Маркета начали писать документацию к объектам

      Как Яндекс Маркет начал писать документацию. Вы узнаете, как это происходило и с какими проблемами столкнулась компания. Рассмотрим разные подходы к описанию метаданных в хранилищах, сравним их между собой и поймем, стоит ли идти по этому пути.

    • Доклад

      Хорошие данные не случаются случайно

      Хорошие данные не случаются случайно. Поделюсь опытом создания инструмента, который помогает проверять данные автоматически — быстро, гибко и без боли.

    • Доклад

      Data Catalog: искажение метаданных или продуктовый подход

      Подходы к загрузке метаданных в Data Catalog достаточно часто рассматривают в линейном виде: минимум изменений, максимальное сохранение «истины». Но так ли это правильно?

    • Доклад

      Дата-контракты: ожидания от данных без иллюзий

      Как в Яндексе удалось навести порядок в хаосе распределенных данных с помощью внутреннего сервиса дата-контрактов — без централизации, но с понятной ответственностью и прозрачными договоренностями.

    • Доклад

      Что такое metastore и с чем его едят

      Что такое metastore, как он работает в экосистеме больших данных, какие решения существуют на рынке и почему мы решили разработать собственный. Поделюсь практическим опытом, архитектурой и уроками, которые мы извлекли.

  • Architecture of Data Platforms

    7
    • Доклад

      Как мы строили lakehouse на Ozone

      Как мы переходили с платформы на базе Vertica, HDFS к новой архитектуре Dota 2 (второй версии нашей внутренней аналитической платформы), основанной на Apache Ozone (S3), Trino, Spark и Iceberg. Поделюсь опытом выбора хранилища, объясню, почему отказались от HDFS и почему выбрали Apache Ozone как on-prem реализацию S3.

    • Доклад

      От бакета в S3 к Data Lakehouse: эволюция платформы данных в гонке за автономией

      Как Data Lakehouse стал нашим спасательным кругом: обеспечил безболезненную миграцию при непрерывном потоке более 150 ТБ в день.

    • Доклад

      Как в Авито обеспечивают self-service разработки и деплоя витрин

      Архитектуру сервиса тестирования и деплоя витрин в Авито и подходы, которые использовали в тестировании витрин.

    • Доклад

      Как организовать масштабируемый ресерч-кластер для более чем 600 дата-сайентистов с помощью JupyterHub в Kubernetes

      Расскажем, как в Wildberries реализована ресерч-платформа на базе JupyterHub и Kubernetes для более чем 600 дата-сайентистов, решающих задачи в таких областях, как CV, NLP, OCR, рекомендации.

    • Доклад

      DataOps под микроскопом: CRD и Kubernetes-операторы для жизненного цикла «ETL-пробирок»

      Как команда Т-Банка перенесла DataOps на Kubernetes и не сошла с ума. Расскажу, как мы спроектировали и внедрили инфраструктуру для управления жизненным циклом ETL-задач с помощью Kubernetes-операторов, автоматизировали доставку DAG и интегрировали это в существующий DataOps. Разберу, что получилось, где набили шишки и чего категорически не стоит делать.

    • Доклад

      Запускаем YugabyteDB в production

      База уже обложена read replica, но все равно не тянет — что делать?

      Расскажу подробно о нашем опыте с YugabyteDB, которую мы выбрали в качестве решения. Обсудим важные настройки, нюансы с точки зрения разработки и баги, которые мы нашли.

      Тем, кто будет закатывать YugabyteDB в production, доклад сэкономит много времени и нервов. Но будет интересно и тем, кто использует PostgreSQL или другую классическую реляционную базу и задумывается о ее масштабируемости и отказоустойчивости.

    • Доклад

      Критерии хорошей платформы данных от Яндекс Доставки

      Как измерить качество платформы данных и управлять ее развитием? Расскажу, как в Яндекс Доставке мы построили систему метрик для оценки 7 ключевых направлений — от стабильности инфраструктуры до использования данных бизнесом.

  • Use Cases

    4
  • AI/LLM in Data

    4
  • Database Internals

    3
  • DQ

    3
  • MPP

    1
    • Доклад

      DWH на StarRocks: год в production

      Реальный опыт построения DWH на StarRocks: архитектура, кейсы применения, подводные камни. Оправдал ли StarRocks наши ожидания.

  • Art&Science

    1
    • Доклад

      Искусство и кибернетика

      Как кибернетический подход к отношениям природы и человека помогает в решении самых разных задач.

  • Без темы

    4

Скоро добавим еще больше докладов

Мы активно дополняем программу. Подписывайтесь на нашу рассылку, чтобы быть в курсе.

Подписаться