Расписание

Скачать расписание

5 октября
Зал 1Зал 2Зал 300:00
Смотреть запись
State of Data 2025 от Программного комитета SmartData
Год назад был первый опрос и первые результаты State of Data. В этот раз мы не просто посмотрим на результаты, но и увидим динамику: что же все-таки изменилось за год.
- Олег Кочергин
  Positive Technologies
- Сергей Бойцов
Зал 1
00:00
Смотреть запись
Перспективы развития Apache Iceberg
Обсудим ключевые вызовы, стоящие перед Apache Iceberg, а также перспективы развития технологии.
- Владимир Озеров
  CedrusData
Зал 1Сложность -
- Data Tools
Смотреть запись
Использование кодеков в ClickHouse: преимущества и недостатки
Расскажу, как кодеки LZ4, ZSTD, Delta и DoubleDelta помогают увеличить скорость запросов и сократить объем хранения. Вы узнаете, какие вызовы возникают при их использовании в промышленных средах.
- Анастасия Афанасьева
  GlowByte
Зал 2Сложность -
- Database Internals
Смотреть запись
Как непростые времена вынудили нас построить лучший BI
Как мы в крупной бизнес-линии Т-Банка сделали трансформацию подхода к выстраиванию BI функции и что нам это дало
- Роман Назаренко
  Т-Банк
- Екатерина Щербакова
  T-Банк
Зал 3Сложность -
- Use Cases
00:00
Смотреть запись
Автоматизация конфигурирования ETL-процессов на основе Apache Spark 3, используя RAG и LLM MWS
Расскажу о методе автоматизированной оптимизации конфигурирования Apache Spark для ETL-процессов с использованием метрик Spark и RAG-системы, что позволяет значительно оптимизировать утилизацию ETL-процессов.
- Илья Кочагин
  MTС Web Services (MWS)
Зал 1Сложность -
- AI/LLM in Data
Смотреть запись
Как мы улучшили процессы по работе с данными в Airflow: практические кейсы
Расскажу, как мы используем Airflow на практике: от болей с sensors до удобства с datasets, от стандартных возможностей — к собственным кастомным решениям. Доклад не оставит равнодушными тех, кто сталкивался с реальной эксплуатацией Airflow.
- Дмитрий Морозов
  Инновационный центр «Безопасный транспорт»
Зал 2Сложность -
- Use Cases
Смотреть запись
Мониторинг DWH: от метаданных до DataOps
Практический кейс внедрения мониторинга DWH от Skyeng: от архитектуры метаданных до автоматизированных проверок качества данных и перехода к DataOps-практикам.
- Данил Захаров
  Skyeng
Зал 3Сложность -
- Data Management
00:00
Смотреть запись
Spark — ВСЁ!
Поговорим про Spark. Что он дал дата-инженерам? Почему многие из нас используют именно его?

Spark уже более 15 лет. С какими проблемами мы сталкиваемся при его использовании? Появилось ли что-то получше? Можно ли его уже чем-то заменить?

Почему %SQLEngineName% тормозит? Как это исправить? Бенчмарки, open source и тому подобное.
- Евгений Глотов
  Navio
Зал 1Сложность -
- Data Tools
Смотреть запись
DataRentgen: как запилить yet another lineage, не привлекая внимания санитаров
Описание пути разработки Open Source DataLineage-решения на базе OpenLineage. Сравнение с другими Open Source решениями — OpenMetadata, DataHub, Marquez — и причина, почему отказались от них в пользу своей разработки. Нет, это не очередной Data Catalog :)
- Максим Мартынов
  MTС Web Services (MWS)
Зал 2Сложность -
- Data Management
Смотреть запись
ИИ под замком: как мы развернули безопасный LLM-сервис для 3000 разработчиков
Как задеплоить безопасный, мощный и масштабируемый LLM-сервис для крупной компании: с UI, API, модерацией и с поддержкой моделей под совершенно разные задачи.
- Илья Дарковский
  Kaspersky
Зал 3Сложность -
- AI/LLM in Data
00:00
Смотреть запись
GP2S3 по-взрослому
Мы ежедневно выгружаем из Greenplum в S3 сотни терабайтов. О том, какие подводные камни мы собрали и что в итоге получилось, вы сможете послушать в нашем докладе.
- Владимир Ермаков
  Т-Банк
- Андрей Кошкин
  Т-Банк
Зал 1Сложность -
- Data Tools
Смотреть запись
Как в хранилище Яндекс Маркета начали писать документацию к объектам
Как Яндекс Маркет начал писать документацию. Вы узнаете, как это происходило и с какими проблемами столкнулась компания. Рассмотрим разные подходы к описанию метаданных в хранилищах, сравним их между собой и поймем, стоит ли идти по этому пути.
- Павел Колодкин
  Яндекс Маркет
Зал 2Сложность -
- Data Management
Смотреть запись
Алгоритмы векторного поиска в современных базах данных
Детальный обзор алгоритмов векторного поиска, наиболее популярных в современных системах управления базами данных.
- Александр Зевайкин
  YDB
Зал 3Сложность -
- Database Internals
00:00
Смотреть запись
Hadoop Is Not Dead — Just Secure!
История о том, как небольшая команда инженеров внедрила Hadoop с полноценной безопасностью на базе Kerberos и Ranger без остановки бизнес-процессов.
- Антон Александров
  Детский мир
Зал 1Сложность -
- Use Cases
Смотреть запись
Как X5 Tech дает аналитику по данным без привлечения аналитиков, специалистов и иных посредников
Расскажу про ИИ-ассистента, который помогает пользователям получать ответы на вопросы по данным. Вы узнаете, как мы в X5 Tech управляем качеством ответов и как данные и описание данных влияют на конечный результат.
- Владимир Ермаченков
  X5 Tech
Зал 2Сложность -
- Use Cases
Смотреть запись
Алгоритмы векторного поиска в YDB
YDB прошла значительный путь развития от применения базовых методов векторного поиска до создания масштабируемого и эффективного векторного индекса. В докладе — подробный разбор этапов эволюции векторного поиска в YDB, включая анализ сложностей и инженерных решений.
- Александр Зевайкин
  YDB
Зал 3Сложность -
- Database Internals
00:00
Смотреть запись
Как мы строили lakehouse на Ozone
Как мы переходили с платформы на базе Vertica, HDFS к новой архитектуре Dota 2 (второй версии нашей внутренней аналитической платформы), основанной на Apache Ozone (S3), Trino, Spark и Iceberg. Поделюсь опытом выбора хранилища, объясню, почему отказались от HDFS и почему выбрали Apache Ozone как on-prem реализацию S3.
- Виталий Моисеев
  Островок!
Зал 1Сложность -
- Architecture of Data Platforms
Смотреть запись
Хорошие данные не случаются случайно
Хорошие данные не случаются случайно. Поделюсь опытом создания инструмента, который помогает проверять данные автоматически — быстро, гибко и без боли.
- Юрий Горынцев
  Arenadata Catalog
Зал 2Сложность -
- Data Management
- DQ
Смотреть запись
От бакета в S3 к Data Lakehouse: эволюция платформы данных в гонке за автономией
Как Data Lakehouse стал нашим спасательным кругом: обеспечил безболезненную миграцию при непрерывном потоке более 150 ТБ в день.
- Никита Бандурко
  Navio
- Георгий Попов
  Navio
Зал 3Сложность -
- Architecture of Data Platforms
00:0000:0000:0000:0000:0000:0000:00
Начало: 00:00 – Конец: 00:00
Нетворкинг и афтерпати
- Не записывалось
  Круглый стол «Hadoop мертв, да здравствует Hadoop?!»
  Михаил Марюфич
  T-Банк
  Алексей Белозерский
  VK Tech, VK Cloud
  Виталий Моисеев
  Островок!
  Игорь Дмитриев
  Wildberries & Russ
  Дмитрий Зуев
  Positive Technologies
  Зал 2Активность в офлайне, не транслируется и не записываетсяАктивность не записывается
- Не записывалось
  Lightning Talks
  Артем Дубинин
  VK Tech / Tarantool
  Дмитрий Швеенков
  VK Tech
  Михаил Лукин
  Судо
  Бронислав Житников
  Positive Technologies
  Зал 3Активность в офлайне, не транслируется и не записываетсяАктивность не записывается
6 октября
Зал 1Зал 2Зал 300:00
Смотреть запись
Spark Connect: новый подход для работы с Apache Spark
Расскажу о Spark Connect — новом подходе для работы с Apache Spark, который позволяет разрабатывать клиентскую часть приложения на любом языке и не зависеть от JVM. Поговорим об архитектуре Spark Connect и ее отличиях от классического Spark. Вы узнаете о проекте, в котором мы использовали Spark Connect API для C++.
- Александр Токарев
  Яндекс
Зал 1Сложность -
- Data Tools
Смотреть запись
Semantic RAG: аналитический подход к моделированию знаний для LLM
Как строить осмысленные пайплайны Retrieval-Augmented Generation (RAG), в которых LLM не просто «угадывает» ответ по похожим чанкам, а осознанно исследует данные, исходя из их структуры и связей.
- Ольга Татаринова
  Epoch8
Зал 2Сложность -
- AI/LLM in Data
Смотреть запись
Как мы искали инструменты для DQ и к чему в итоге пришли
Обзор и сравнение существующих библиотек Python и самописного инструмента профилирования для анализа качества данных. Описание функционала инструмента.
- Павел Павлюков
  Газпромбанк.Тех
- Александр Свяжин
  Газпромбанк.Тех
Зал 3Сложность -
- DQ
00:00
Смотреть запись
Как в Авито обеспечивают self-service разработки и деплоя витрин
Архитектуру сервиса тестирования и деплоя витрин в Авито и подходы, которые использовали в тестировании витрин.
- Айк Оганесян
  Авито
- Николай Огоров
  Авито
Зал 1Сложность -
- Architecture of Data Platforms
Смотреть запись
Debezium и PostgreSQL после happy-path: какие проблемы ждут в проде и как их решать
Получение событий изменений из источников — довольно частая задача, которая может решаться разными способами. Одно из таких решений — Debezium. Но так ли с ним все просто и всегда ли именно это решение наилучшее? Постараюсь ответить на эти вопросы и рассмотреть Debezium с точки зрения сложностей, которые возникают на пути решения задачи захвата изменений.
- Никита Рьянов
Зал 2Сложность -
- Data Tools
Смотреть запись
Data Catalog: искажение метаданных или продуктовый подход
Подходы к загрузке метаданных в Data Catalog достаточно часто рассматривают в линейном виде: минимум изменений, максимальное сохранение «истины». Но так ли это правильно?
- Анна Мавлютова
  Т-Банк
Зал 3Сложность -
- Data Management
00:00
Смотреть запись
StarRocks — реальность современной платформы данных
Платформа данных в нашей компании существует уже более 5 лет, за это время она вобрала множество модных (и не очень) решений. Расскажу, как мы пытались выбрать наше будущее среди ClickHouse, Greenplum и Trino, а нашли StarRocks.
- Станислав Лысиков
Зал 1Сложность -
- Data Tools
Смотреть запись
Как организовать масштабируемый ресерч-кластер для более чем 600 дата-сайентистов с помощью JupyterHub в Kubernetes
Расскажем, как в Wildberries реализована ресерч-платформа на базе JupyterHub и Kubernetes для более чем 600 дата-сайентистов, решающих задачи в таких областях, как CV, NLP, OCR, рекомендации.
- Даниил Понизов
  Wildberries & Russ
- Владислав Печень
  Wildberries & Russ
Зал 2Сложность -
- Architecture of Data Platforms
Смотреть запись
AI-ассистенты в управлении данными
Потенциал применения AI для автоматизации процессов Data Governance на стороне пользователей платформы данных.
- Олег Сагитов
  Т-Банк
Зал 3Сложность -
- AI/LLM in Data
00:00
Смотреть запись
DataOps под микроскопом: CRD и Kubernetes-операторы для жизненного цикла «ETL-пробирок»
Как команда Т-Банка перенесла DataOps на Kubernetes и не сошла с ума. Расскажу, как мы спроектировали и внедрили инфраструктуру для управления жизненным циклом ETL-задач с помощью Kubernetes-операторов, автоматизировали доставку DAG и интегрировали это в существующий DataOps. Разберу, что получилось, где набили шишки и чего категорически не стоит делать.
- Сергей Бойко
  Т-Банк
Зал 1Сложность -
- Architecture of Data Platforms
Смотреть запись
Дата-контракты: ожидания от данных без иллюзий
Как в Яндексе удалось навести порядок в хаосе распределенных данных с помощью внутреннего сервиса дата-контрактов — без централизации, но с понятной ответственностью и прозрачными договоренностями.
- Валерия Терова
  Яндекс
Зал 2Сложность -
- Data Management
Смотреть запись
Запускаем YugabyteDB в production
База уже обложена read replica, но все равно не тянет — что делать?

Расскажу подробно о нашем опыте с YugabyteDB, которую мы выбрали в качестве решения. Обсудим важные настройки, нюансы с точки зрения разработки и баги, которые мы нашли.

Тем, кто будет закатывать YugabyteDB в production, доклад сэкономит много времени и нервов. Но будет интересно и тем, кто использует PostgreSQL или другую классическую реляционную базу и задумывается о ее масштабируемости и отказоустойчивости.
- Василий Осадчий
  01.tech
Зал 3Сложность -
- Architecture of Data Platforms
00:00
Смотреть запись
Сторонние движки исполнения для Apache Spark: опыт использования
Опыт применения движков исполнения Comet и Gluten (Velox) — от введения и особенностей сборки до результатов тестирования на реальных ETL. Расскажу о подводных камнях и неочевидных моментах, покажу результаты работы и рассмотрю кейсы, когда эти движки полезны, а когда вообще не работают.
- Никита Благодарный
  Честный знак
Зал 1Сложность -
- Data Tools
Смотреть запись
DWH на StarRocks: год в production
Реальный опыт построения DWH на StarRocks: архитектура, кейсы применения, подводные камни. Оправдал ли StarRocks наши ожидания.
- Артем Маркин
  Передовые Платежные Решения
Зал 2Сложность -
- MPP
Смотреть запись
Data Quality as a Service — инструмент самообслуживания в большой компании
Как внедрить Data Quality-инструмент с распределенной архитектурой, обеспечивающий бесперебойную работу для большого числа команд и являющийся единой точкой правды о качестве данных в системах компании.
- Андрей Азеев
  МТС Web Services
- Богдан Петров
  МТС Web Services
Зал 3Сложность -
- DQ
00:00
Смотреть запись
Apache Spark SQL. Расширяй и управляй
Как настроить и доработать Apache Spark под свои задачи без переписывания фреймворка. Расскажу о подходах к расширению функциональности Spark SQL без вмешательства в исходный код платформы. Вы узнаете о создании собственных источников данных, разработке пользовательских функций для специализированной обработки и внедрении правил оптимизации, адаптирующихся под различные запросы.
- Дмитрий Вертлиб
  Честный знак
Зал 1Сложность -
- Data Tools
Смотреть запись
Критерии хорошей платформы данных от Яндекс Доставки
Как измерить качество платформы данных и управлять ее развитием? Расскажу, как в Яндекс Доставке мы построили систему метрик для оценки 7 ключевых направлений — от стабильности инфраструктуры до использования данных бизнесом.
- Владислав Гоцуляк
  Яндекс Доставка
Зал 2Сложность -
- Architecture of Data Platforms
Смотреть запись
Что такое metastore и с чем его едят
Что такое metastore, как он работает в экосистеме больших данных, какие решения существуют на рынке и почему мы решили разработать собственный. Поделюсь практическим опытом, архитектурой и уроками, которые мы извлекли.
- Михаил Иванов
  Positive Technologies
Зал 3Сложность -
- Data Management
00:00
Смотреть запись
Искусство и кибернетика
Как кибернетический подход к отношениям природы и человека помогает в решении самых разных задач.
- Дмитрий Булатов
Зал 1
- Art&Science
00:00
Смотреть запись
Закрытие конференции SmartData 2025
Подводим итоги конференции, вспоминаем яркие моменты и рассказываем о дальнейших планах. Заходите в зал или подключайтесь к трансляции, чтобы ничего не пропустить!
- Михаил Лукин
  Судо
- Бронислав Житников
  Positive Technologies
Зал 1
00:0000:0000:0000:0000:0000:0000:0000:00

Расписание

5 октября

Нетворкинг и афтерпати

6 октября