К основному контенту
SmartData 2025Сезон: 2025
  • Расписание
  • Спикеры
  • Медиа
  • Партнеры
  • О нас
  • Архив
  • Эксперты
  • Новая SmartData
EN
  • Новая SmartData
EN

Расписание

  • Расписание
  • Сохраненное
  • Data ToolsВсего8
  • Data ManagementВсего7
  • Architecture of Data PlatformsВсего7
  • Use CasesВсего4
  • AI/LLM in DataВсего4
  • Database InternalsВсего3
  • DQВсего3
  • MPPВсего1
  • Art&ScienceВсего1
  • Без темыВсего4
Скачать расписание
  • дате
  • темам
  • Data Tools

    8
    • Смотреть запись

      Перспективы развития Apache Iceberg

      Обсудим ключевые вызовы, стоящие перед Apache Iceberg, а также перспективы развития технологии.

      • Владимир Озеров

        CedrusData

      Зал 1
    • Смотреть запись

      Spark — ВСЁ!

      Поговорим про Spark. Что он дал дата-инженерам? Почему многие из нас используют именно его?

      Spark уже более 15 лет. С какими проблемами мы сталкиваемся при его использовании? Появилось ли что-то получше? Можно ли его уже чем-то заменить?

      Почему %SQLEngineName% тормозит? Как это исправить? Бенчмарки, open source и тому подобное.

      • Евгений Глотов

        Navio

      Зал 1
    • Смотреть запись

      GP2S3 по-взрослому

      Мы ежедневно выгружаем из Greenplum в S3 сотни терабайтов. О том, какие подводные камни мы собрали и что в итоге получилось, вы сможете послушать в нашем докладе.

      • Владимир Ермаков

        Т-Банк

      • Андрей Кошкин

        Т-Банк

      Зал 1
    • Смотреть запись

      Spark Connect: новый подход для работы с Apache Spark

      Расскажу о Spark Connect — новом подходе для работы с Apache Spark, который позволяет разрабатывать клиентскую часть приложения на любом языке и не зависеть от JVM. Поговорим об архитектуре Spark Connect и ее отличиях от классического Spark. Вы узнаете о проекте, в котором мы использовали Spark Connect API для C++.

      • Александр Токарев

        Яндекс

      Зал 1
    • Смотреть запись

      Debezium и PostgreSQL после happy-path: какие проблемы ждут в проде и как их решать

      Получение событий изменений из источников — довольно частая задача, которая может решаться разными способами. Одно из таких решений — Debezium. Но так ли с ним все просто и всегда ли именно это решение наилучшее? Постараюсь ответить на эти вопросы и рассмотреть Debezium с точки зрения сложностей, которые возникают на пути решения задачи захвата изменений.

      • Никита Рьянов

      Зал 2
    • Смотреть запись

      StarRocks — реальность современной платформы данных

      Платформа данных в нашей компании существует уже более 5 лет, за это время она вобрала множество модных (и не очень) решений. Расскажу, как мы пытались выбрать наше будущее среди ClickHouse, Greenplum и Trino, а нашли StarRocks. 

      • Станислав Лысиков

      Зал 1
    • Смотреть запись

      Сторонние движки исполнения для Apache Spark: опыт использования

      Опыт применения движков исполнения Comet и Gluten (Velox) — от введения и особенностей сборки до результатов тестирования на реальных ETL. Расскажу о подводных камнях и неочевидных моментах, покажу результаты работы и рассмотрю кейсы, когда эти движки полезны, а когда вообще не работают.

      • Никита Благодарный

        Честный знак

      Зал 1
    • Смотреть запись

      Apache Spark SQL. Расширяй и управляй

      Как настроить и доработать Apache Spark под свои задачи без переписывания фреймворка. Расскажу о подходах к расширению функциональности Spark SQL без вмешательства в исходный код платформы. Вы узнаете о создании собственных источников данных, разработке пользовательских функций для специализированной обработки и внедрении правил оптимизации, адаптирующихся под различные запросы.

      • Дмитрий Вертлиб

        Честный знак

      Зал 1
  • Data Management

    7
    • Смотреть запись

      Мониторинг DWH: от метаданных до DataOps

      Практический кейс внедрения мониторинга DWH от Skyeng: от архитектуры метаданных до автоматизированных проверок качества данных и перехода к DataOps-практикам.

      • Данил Захаров

        Skyeng

      Зал 3
    • Смотреть запись

      DataRentgen: как запилить yet another lineage, не привлекая внимания санитаров

      Описание пути разработки Open Source DataLineage-решения на базе OpenLineage. Сравнение с другими Open Source решениями — OpenMetadata, DataHub, Marquez — и причина, почему отказались от них в пользу своей разработки. Нет, это не очередной Data Catalog :)

      • Максим Мартынов

        MTС Web Services (MWS)

      Зал 2
    • Смотреть запись

      Как в хранилище Яндекс Маркета начали писать документацию к объектам

      Как Яндекс Маркет начал писать документацию. Вы узнаете, как это происходило и с какими проблемами столкнулась компания. Рассмотрим разные подходы к описанию метаданных в хранилищах, сравним их между собой и поймем, стоит ли идти по этому пути.

      • Павел Колодкин

        Яндекс Маркет

      Зал 2
    • Смотреть запись

      Хорошие данные не случаются случайно

      Хорошие данные не случаются случайно. Поделюсь опытом создания инструмента, который помогает проверять данные автоматически — быстро, гибко и без боли.

      • Юрий Горынцев

        Arenadata Catalog

      Зал 2
    • Смотреть запись

      Data Catalog: искажение метаданных или продуктовый подход

      Подходы к загрузке метаданных в Data Catalog достаточно часто рассматривают в линейном виде: минимум изменений, максимальное сохранение «истины». Но так ли это правильно?

      • Анна Мавлютова

        Т-Банк

      Зал 3
    • Смотреть запись

      Дата-контракты: ожидания от данных без иллюзий

      Как в Яндексе удалось навести порядок в хаосе распределенных данных с помощью внутреннего сервиса дата-контрактов — без централизации, но с понятной ответственностью и прозрачными договоренностями.

      • Валерия Терова

        Яндекс

      Зал 2
    • Смотреть запись

      Что такое metastore и с чем его едят

      Что такое metastore, как он работает в экосистеме больших данных, какие решения существуют на рынке и почему мы решили разработать собственный. Поделюсь практическим опытом, архитектурой и уроками, которые мы извлекли.

      • Михаил Иванов

        Positive Technologies

      Зал 3
  • Architecture of Data Platforms

    7
    • Смотреть запись

      Как мы строили lakehouse на Ozone

      Как мы переходили с платформы на базе Vertica, HDFS к новой архитектуре Dota 2 (второй версии нашей внутренней аналитической платформы), основанной на Apache Ozone (S3), Trino, Spark и Iceberg. Поделюсь опытом выбора хранилища, объясню, почему отказались от HDFS и почему выбрали Apache Ozone как on-prem реализацию S3.

      • Виталий Моисеев

        Островок!

      Зал 1
    • Смотреть запись

      От бакета в S3 к Data Lakehouse: эволюция платформы данных в гонке за автономией

      Как Data Lakehouse стал нашим спасательным кругом: обеспечил безболезненную миграцию при непрерывном потоке более 150 ТБ в день.

      • Никита Бандурко

        Navio

      • Георгий Попов

        Navio

      Зал 3
    • Смотреть запись

      Как в Авито обеспечивают self-service разработки и деплоя витрин

      Архитектуру сервиса тестирования и деплоя витрин в Авито и подходы, которые использовали в тестировании витрин.

      • Айк Оганесян

        Авито

      • Николай Огоров

        Авито

      Зал 1
    • Смотреть запись

      Как организовать масштабируемый ресерч-кластер для более чем 600 дата-сайентистов с помощью JupyterHub в Kubernetes

      Расскажем, как в Wildberries реализована ресерч-платформа на базе JupyterHub и Kubernetes для более чем 600 дата-сайентистов, решающих задачи в таких областях, как CV, NLP, OCR, рекомендации.

      • Даниил Понизов

        Wildberries & Russ

      • Владислав Печень

        Wildberries & Russ

      Зал 2
    • Смотреть запись

      DataOps под микроскопом: CRD и Kubernetes-операторы для жизненного цикла «ETL-пробирок»

      Как команда Т-Банка перенесла DataOps на Kubernetes и не сошла с ума. Расскажу, как мы спроектировали и внедрили инфраструктуру для управления жизненным циклом ETL-задач с помощью Kubernetes-операторов, автоматизировали доставку DAG и интегрировали это в существующий DataOps. Разберу, что получилось, где набили шишки и чего категорически не стоит делать.

      • Сергей Бойко

        Т-Банк

      Зал 1
    • Смотреть запись

      Запускаем YugabyteDB в production

      База уже обложена read replica, но все равно не тянет — что делать?

      Расскажу подробно о нашем опыте с YugabyteDB, которую мы выбрали в качестве решения. Обсудим важные настройки, нюансы с точки зрения разработки и баги, которые мы нашли.

      Тем, кто будет закатывать YugabyteDB в production, доклад сэкономит много времени и нервов. Но будет интересно и тем, кто использует PostgreSQL или другую классическую реляционную базу и задумывается о ее масштабируемости и отказоустойчивости.

      • Василий Осадчий

        01.tech

      Зал 3
    • Смотреть запись

      Критерии хорошей платформы данных от Яндекс Доставки

      Как измерить качество платформы данных и управлять ее развитием? Расскажу, как в Яндекс Доставке мы построили систему метрик для оценки 7 ключевых направлений — от стабильности инфраструктуры до использования данных бизнесом.

      • Владислав Гоцуляк

        Яндекс Доставка

      Зал 2
  • Use Cases

    4
    • Смотреть запись

      Как непростые времена вынудили нас построить лучший BI

      Как мы в крупной бизнес-линии Т-Банка сделали трансформацию подхода к выстраиванию BI функции и что нам это дало

      • Роман Назаренко

        Т-Банк

      • Екатерина Щербакова

        T-Банк

      Зал 3
    • Смотреть запись

      Как мы улучшили процессы по работе с данными в Airflow: практические кейсы

      Расскажу, как мы используем Airflow на практике: от болей с sensors до удобства с datasets, от стандартных возможностей — к собственным кастомным решениям. Доклад не оставит равнодушными тех, кто сталкивался с реальной эксплуатацией Airflow.

      • Дмитрий Морозов

        Инновационный центр «Безопасный транспорт»

      Зал 2
    • Смотреть запись

      Hadoop Is Not Dead — Just Secure!

      История о том, как небольшая команда инженеров внедрила Hadoop с полноценной безопасностью на базе Kerberos и Ranger без остановки бизнес-процессов.

      • Антон Александров

        Детский мир

      Зал 1
    • Смотреть запись

      Как X5 Tech дает аналитику по данным без привлечения аналитиков, специалистов и иных посредников

      Расскажу про ИИ-ассистента, который помогает пользователям получать ответы на вопросы по данным. Вы узнаете, как мы в X5 Tech управляем качеством ответов и как данные и описание данных влияют на конечный результат.

      • Владимир Ермаченков

        X5 Tech

      Зал 2
  • AI/LLM in Data

    4
    • Смотреть запись

      Автоматизация конфигурирования ETL-процессов на основе Apache Spark 3, используя RAG и LLM MWS

      Расскажу о методе автоматизированной оптимизации конфигурирования Apache Spark для ETL-процессов с использованием метрик Spark и RAG-системы, что позволяет значительно оптимизировать утилизацию ETL-процессов.

      • Илья Кочагин

        MTС Web Services (MWS)

      Зал 1
    • Смотреть запись

      ИИ под замком: как мы развернули безопасный LLM-сервис для 3000 разработчиков

      Как задеплоить безопасный, мощный и масштабируемый LLM-сервис для крупной компании: с UI, API, модерацией и с поддержкой моделей под совершенно разные задачи.

      • Илья Дарковский

        Kaspersky

      Зал 3
    • Смотреть запись

      Semantic RAG: аналитический подход к моделированию знаний для LLM

      Как строить осмысленные пайплайны Retrieval-Augmented Generation (RAG), в которых LLM не просто «угадывает» ответ по похожим чанкам, а осознанно исследует данные, исходя из их структуры и связей.

      • Ольга Татаринова

        Epoch8

      Зал 2
    • Смотреть запись

      AI-ассистенты в управлении данными

      Потенциал применения AI для автоматизации процессов Data Governance на стороне пользователей платформы данных.

      • Олег Сагитов

        Т-Банк

      Зал 3
  • Database Internals

    3
    • Смотреть запись

      Использование кодеков в ClickHouse: преимущества и недостатки

      Расскажу, как кодеки LZ4, ZSTD, Delta и DoubleDelta помогают увеличить скорость запросов и сократить объем хранения. Вы узнаете, какие вызовы возникают при их использовании в промышленных средах.

      • Анастасия Афанасьева

        GlowByte

      Зал 2
    • Смотреть запись

      Алгоритмы векторного поиска в современных базах данных

      Детальный обзор алгоритмов векторного поиска, наиболее популярных в современных системах управления базами данных.

      • Александр Зевайкин

        YDB

      Зал 3
    • Смотреть запись

      Алгоритмы векторного поиска в YDB

      YDB прошла значительный путь развития от применения базовых методов векторного поиска до создания масштабируемого и эффективного векторного индекса. В докладе — подробный разбор этапов эволюции векторного поиска в YDB, включая анализ сложностей и инженерных решений. 

      • Александр Зевайкин

        YDB

      Зал 3
  • DQ

    3
    • Смотреть запись

      Хорошие данные не случаются случайно

      Хорошие данные не случаются случайно. Поделюсь опытом создания инструмента, который помогает проверять данные автоматически — быстро, гибко и без боли.

      • Юрий Горынцев

        Arenadata Catalog

      Зал 2
    • Смотреть запись

      Как мы искали инструменты для DQ и к чему в итоге пришли

      Обзор и сравнение существующих библиотек Python и самописного инструмента профилирования для анализа качества данных. Описание функционала инструмента.

      • Павел Павлюков

        Газпромбанк.Тех

      • Александр Свяжин

        Газпромбанк.Тех

      Зал 3
    • Смотреть запись

      Data Quality as a Service — инструмент самообслуживания в большой компании

      Как внедрить Data Quality-инструмент с распределенной архитектурой, обеспечивающий бесперебойную работу для большого числа команд и являющийся единой точкой правды о качестве данных в системах компании.

      • Андрей Азеев

        МТС Web Services

      • Богдан Петров

        МТС Web Services

      Зал 3
  • MPP

    1
    • Смотреть запись

      DWH на StarRocks: год в production

      Реальный опыт построения DWH на StarRocks: архитектура, кейсы применения, подводные камни. Оправдал ли StarRocks наши ожидания.

      • Артем Маркин

        Передовые Платежные Решения

      Зал 2
  • Art&Science

    1
    • Смотреть запись

      Искусство и кибернетика

      Как кибернетический подход к отношениям природы и человека помогает в решении самых разных задач.

      • Дмитрий Булатов

      Зал 1
  • Без темы

    4
    • Смотреть запись

      State of Data 2025 от Программного комитета SmartData

      Год назад был первый опрос и первые результаты State of Data. В этот раз мы не просто посмотрим на результаты, но и увидим динамику: что же все-таки изменилось за год.

      • Олег Кочергин

        Positive Technologies

      • Сергей Бойцов

      Зал 1
    • Не записывалось

      Круглый стол «Hadoop мертв, да здравствует Hadoop?!»

      10 лет назад Hadoop был синонимом больших данных. Cуществует мнение, что сегодня облачные платформы и современные стеки данных оставили его позади. Но так ли это на самом деле? Откровенно и не под запись обсудим, что же на самом деле происходит и как с этим жить.

      • Михаил Марюфич

        T-Банк

      • Алексей Белозерский

        VK Tech, VK Cloud

      • Виталий Моисеев

        Островок!

      • Игорь Дмитриев

        Wildberries & Russ

      • Дмитрий Зуев

        Positive Technologies

      Зал 2
    • Не записывалось

      Lightning Talks

      Lightning talks — это отличный формат, чтобы динамично обсудить тему и найти единомышленников. Вас ждут 20-минутные доклады на профессиональные темы и живые обсуждения.

      • Артем Дубинин

        VK Tech / Tarantool

      • Дмитрий Швеенков

        VK Tech

      • Михаил Лукин

        Судо

      • Бронислав Житников

        Positive Technologies

      Зал 3
    • Смотреть запись

      Закрытие конференции SmartData 2025

      Подводим итоги конференции, вспоминаем яркие моменты и рассказываем о дальнейших планах. Заходите в зал или подключайтесь к трансляции, чтобы ничего не пропустить!

      • Михаил Лукин

        Судо

      • Бронислав Житников

        Positive Technologies

      Зал 1
SmartData 2025

Конференция по инженерии данных

Наши конференции
  • Календарь всех конференций
  • BiasConf
  • C++ Russia
  • КаргоКульт
  • DevOops
  • DotNext
  • Flow
  • GoFunc
  • Heisenbug
  • HolyJS
  • Hydra
  • IML
  • InBetween
  • JPoint
  • Joker
  • Mobius
  • PiterPy
  • SafeCode
  • SmartData
  • TechTrain
  • VideoTech
  • sysconf
Навигация
  • Новая SmartData
  • Стать спикером
  • Расписание
  • Спикеры
  • Медиа
  • Партнеры
  • О нас
  • Архив
  • Эксперты
  • Правовые документы

JUG Ru Group

Нужна помощь?

  • Телефон: +7 (812) 313-27-23
  • E-mail: support@smartdataconf.ru
  • Телеграм: @JUGConfSupport_bot

Мы в социальных сетях

  • Ютуб
  • Икс
  • Телеграм-чат
  • Телеграм-канал
  • ВКонтакте
  • Хабр
© JUG Ru Group, 2017–2026