Расписание

Скачать расписание

Data Tools
8
- Смотреть запись
  Перспективы развития Apache Iceberg
  Обсудим ключевые вызовы, стоящие перед Apache Iceberg, а также перспективы развития технологии.
  - Владимир Озеров
    CedrusData
  Зал 1
- Смотреть запись
  Spark — ВСЁ!
  Поговорим про Spark. Что он дал дата-инженерам? Почему многие из нас используют именно его?
  
  Spark уже более 15 лет. С какими проблемами мы сталкиваемся при его использовании? Появилось ли что-то получше? Можно ли его уже чем-то заменить?
  
  Почему %SQLEngineName% тормозит? Как это исправить? Бенчмарки, open source и тому подобное.
  - Евгений Глотов
    Navio
  Зал 1
- Смотреть запись
  GP2S3 по-взрослому
  Мы ежедневно выгружаем из Greenplum в S3 сотни терабайтов. О том, какие подводные камни мы собрали и что в итоге получилось, вы сможете послушать в нашем докладе.
  - Владимир Ермаков
    Т-Банк
  - Андрей Кошкин
    Т-Банк
  Зал 1
- Смотреть запись
  Spark Connect: новый подход для работы с Apache Spark
  Расскажу о Spark Connect — новом подходе для работы с Apache Spark, который позволяет разрабатывать клиентскую часть приложения на любом языке и не зависеть от JVM. Поговорим об архитектуре Spark Connect и ее отличиях от классического Spark. Вы узнаете о проекте, в котором мы использовали Spark Connect API для C++.
  - Александр Токарев
    Яндекс
  Зал 1
- Смотреть запись
  Debezium и PostgreSQL после happy-path: какие проблемы ждут в проде и как их решать
  Получение событий изменений из источников — довольно частая задача, которая может решаться разными способами. Одно из таких решений — Debezium. Но так ли с ним все просто и всегда ли именно это решение наилучшее? Постараюсь ответить на эти вопросы и рассмотреть Debezium с точки зрения сложностей, которые возникают на пути решения задачи захвата изменений.
  - Никита Рьянов
  Зал 2
- Смотреть запись
  StarRocks — реальность современной платформы данных
  Платформа данных в нашей компании существует уже более 5 лет, за это время она вобрала множество модных (и не очень) решений. Расскажу, как мы пытались выбрать наше будущее среди ClickHouse, Greenplum и Trino, а нашли StarRocks.
  - Станислав Лысиков
  Зал 1
- Смотреть запись
  Сторонние движки исполнения для Apache Spark: опыт использования
  Опыт применения движков исполнения Comet и Gluten (Velox) — от введения и особенностей сборки до результатов тестирования на реальных ETL. Расскажу о подводных камнях и неочевидных моментах, покажу результаты работы и рассмотрю кейсы, когда эти движки полезны, а когда вообще не работают.
  - Никита Благодарный
    Честный знак
  Зал 1
- Смотреть запись
  Apache Spark SQL. Расширяй и управляй
  Как настроить и доработать Apache Spark под свои задачи без переписывания фреймворка. Расскажу о подходах к расширению функциональности Spark SQL без вмешательства в исходный код платформы. Вы узнаете о создании собственных источников данных, разработке пользовательских функций для специализированной обработки и внедрении правил оптимизации, адаптирующихся под различные запросы.
  - Дмитрий Вертлиб
    Честный знак
  Зал 1
Data Management
7
- Смотреть запись
  Мониторинг DWH: от метаданных до DataOps
  Практический кейс внедрения мониторинга DWH от Skyeng: от архитектуры метаданных до автоматизированных проверок качества данных и перехода к DataOps-практикам.
  - Данил Захаров
    Skyeng
  Зал 3
- Смотреть запись
  DataRentgen: как запилить yet another lineage, не привлекая внимания санитаров
  Описание пути разработки Open Source DataLineage-решения на базе OpenLineage. Сравнение с другими Open Source решениями — OpenMetadata, DataHub, Marquez — и причина, почему отказались от них в пользу своей разработки. Нет, это не очередной Data Catalog :)
  - Максим Мартынов
    MTС Web Services (MWS)
  Зал 2
- Смотреть запись
  Как в хранилище Яндекс Маркета начали писать документацию к объектам
  Как Яндекс Маркет начал писать документацию. Вы узнаете, как это происходило и с какими проблемами столкнулась компания. Рассмотрим разные подходы к описанию метаданных в хранилищах, сравним их между собой и поймем, стоит ли идти по этому пути.
  - Павел Колодкин
    Яндекс Маркет
  Зал 2
- Смотреть запись
  Хорошие данные не случаются случайно
  Хорошие данные не случаются случайно. Поделюсь опытом создания инструмента, который помогает проверять данные автоматически — быстро, гибко и без боли.
  - Юрий Горынцев
    Arenadata Catalog
  Зал 2
- Смотреть запись
  Data Catalog: искажение метаданных или продуктовый подход
  Подходы к загрузке метаданных в Data Catalog достаточно часто рассматривают в линейном виде: минимум изменений, максимальное сохранение «истины». Но так ли это правильно?
  - Анна Мавлютова
    Т-Банк
  Зал 3
- Смотреть запись
  Дата-контракты: ожидания от данных без иллюзий
  Как в Яндексе удалось навести порядок в хаосе распределенных данных с помощью внутреннего сервиса дата-контрактов — без централизации, но с понятной ответственностью и прозрачными договоренностями.
  - Валерия Терова
    Яндекс
  Зал 2
- Смотреть запись
  Что такое metastore и с чем его едят
  Что такое metastore, как он работает в экосистеме больших данных, какие решения существуют на рынке и почему мы решили разработать собственный. Поделюсь практическим опытом, архитектурой и уроками, которые мы извлекли.
  - Михаил Иванов
    Positive Technologies
  Зал 3
Architecture of Data Platforms
7
- Смотреть запись
  Как мы строили lakehouse на Ozone
  Как мы переходили с платформы на базе Vertica, HDFS к новой архитектуре Dota 2 (второй версии нашей внутренней аналитической платформы), основанной на Apache Ozone (S3), Trino, Spark и Iceberg. Поделюсь опытом выбора хранилища, объясню, почему отказались от HDFS и почему выбрали Apache Ozone как on-prem реализацию S3.
  - Виталий Моисеев
    Островок!
  Зал 1
- Смотреть запись
  От бакета в S3 к Data Lakehouse: эволюция платформы данных в гонке за автономией
  Как Data Lakehouse стал нашим спасательным кругом: обеспечил безболезненную миграцию при непрерывном потоке более 150 ТБ в день.
  - Никита Бандурко
    Navio
  - Георгий Попов
    Navio
  Зал 3
- Смотреть запись
  Как в Авито обеспечивают self-service разработки и деплоя витрин
  Архитектуру сервиса тестирования и деплоя витрин в Авито и подходы, которые использовали в тестировании витрин.
  - Айк Оганесян
    Авито
  - Николай Огоров
    Авито
  Зал 1
- Смотреть запись
  Как организовать масштабируемый ресерч-кластер для более чем 600 дата-сайентистов с помощью JupyterHub в Kubernetes
  Расскажем, как в Wildberries реализована ресерч-платформа на базе JupyterHub и Kubernetes для более чем 600 дата-сайентистов, решающих задачи в таких областях, как CV, NLP, OCR, рекомендации.
  - Даниил Понизов
    Wildberries & Russ
  - Владислав Печень
    Wildberries & Russ
  Зал 2
- Смотреть запись
  DataOps под микроскопом: CRD и Kubernetes-операторы для жизненного цикла «ETL-пробирок»
  Как команда Т-Банка перенесла DataOps на Kubernetes и не сошла с ума. Расскажу, как мы спроектировали и внедрили инфраструктуру для управления жизненным циклом ETL-задач с помощью Kubernetes-операторов, автоматизировали доставку DAG и интегрировали это в существующий DataOps. Разберу, что получилось, где набили шишки и чего категорически не стоит делать.
  - Сергей Бойко
    Т-Банк
  Зал 1
- Смотреть запись
  Запускаем YugabyteDB в production
  База уже обложена read replica, но все равно не тянет — что делать?
  
  Расскажу подробно о нашем опыте с YugabyteDB, которую мы выбрали в качестве решения. Обсудим важные настройки, нюансы с точки зрения разработки и баги, которые мы нашли.
  
  Тем, кто будет закатывать YugabyteDB в production, доклад сэкономит много времени и нервов. Но будет интересно и тем, кто использует PostgreSQL или другую классическую реляционную базу и задумывается о ее масштабируемости и отказоустойчивости.
  - Василий Осадчий
    01.tech
  Зал 3
- Смотреть запись
  Критерии хорошей платформы данных от Яндекс Доставки
  Как измерить качество платформы данных и управлять ее развитием? Расскажу, как в Яндекс Доставке мы построили систему метрик для оценки 7 ключевых направлений — от стабильности инфраструктуры до использования данных бизнесом.
  - Владислав Гоцуляк
    Яндекс Доставка
  Зал 2
Use Cases
4
- Смотреть запись
  Как непростые времена вынудили нас построить лучший BI
  Как мы в крупной бизнес-линии Т-Банка сделали трансформацию подхода к выстраиванию BI функции и что нам это дало
  - Роман Назаренко
    Т-Банк
  - Екатерина Щербакова
    T-Банк
  Зал 3
- Смотреть запись
  Как мы улучшили процессы по работе с данными в Airflow: практические кейсы
  Расскажу, как мы используем Airflow на практике: от болей с sensors до удобства с datasets, от стандартных возможностей — к собственным кастомным решениям. Доклад не оставит равнодушными тех, кто сталкивался с реальной эксплуатацией Airflow.
  - Дмитрий Морозов
    Инновационный центр «Безопасный транспорт»
  Зал 2
- Смотреть запись
  Hadoop Is Not Dead — Just Secure!
  История о том, как небольшая команда инженеров внедрила Hadoop с полноценной безопасностью на базе Kerberos и Ranger без остановки бизнес-процессов.
  - Антон Александров
    Детский мир
  Зал 1
- Смотреть запись
  Как X5 Tech дает аналитику по данным без привлечения аналитиков, специалистов и иных посредников
  Расскажу про ИИ-ассистента, который помогает пользователям получать ответы на вопросы по данным. Вы узнаете, как мы в X5 Tech управляем качеством ответов и как данные и описание данных влияют на конечный результат.
  - Владимир Ермаченков
    X5 Tech
  Зал 2
AI/LLM in Data
4
- Смотреть запись
  Автоматизация конфигурирования ETL-процессов на основе Apache Spark 3, используя RAG и LLM MWS
  Расскажу о методе автоматизированной оптимизации конфигурирования Apache Spark для ETL-процессов с использованием метрик Spark и RAG-системы, что позволяет значительно оптимизировать утилизацию ETL-процессов.
  - Илья Кочагин
    MTС Web Services (MWS)
  Зал 1
- Смотреть запись
  ИИ под замком: как мы развернули безопасный LLM-сервис для 3000 разработчиков
  Как задеплоить безопасный, мощный и масштабируемый LLM-сервис для крупной компании: с UI, API, модерацией и с поддержкой моделей под совершенно разные задачи.
  - Илья Дарковский
    Kaspersky
  Зал 3
- Смотреть запись
  Semantic RAG: аналитический подход к моделированию знаний для LLM
  Как строить осмысленные пайплайны Retrieval-Augmented Generation (RAG), в которых LLM не просто «угадывает» ответ по похожим чанкам, а осознанно исследует данные, исходя из их структуры и связей.
  - Ольга Татаринова
    Epoch8
  Зал 2
- Смотреть запись
  AI-ассистенты в управлении данными
  Потенциал применения AI для автоматизации процессов Data Governance на стороне пользователей платформы данных.
  - Олег Сагитов
    Т-Банк
  Зал 3
Database Internals
3
- Смотреть запись
  Использование кодеков в ClickHouse: преимущества и недостатки
  Расскажу, как кодеки LZ4, ZSTD, Delta и DoubleDelta помогают увеличить скорость запросов и сократить объем хранения. Вы узнаете, какие вызовы возникают при их использовании в промышленных средах.
  - Анастасия Афанасьева
    GlowByte
  Зал 2
- Смотреть запись
  Алгоритмы векторного поиска в современных базах данных
  Детальный обзор алгоритмов векторного поиска, наиболее популярных в современных системах управления базами данных.
  - Александр Зевайкин
    YDB
  Зал 3
- Смотреть запись
  Алгоритмы векторного поиска в YDB
  YDB прошла значительный путь развития от применения базовых методов векторного поиска до создания масштабируемого и эффективного векторного индекса. В докладе — подробный разбор этапов эволюции векторного поиска в YDB, включая анализ сложностей и инженерных решений.
  - Александр Зевайкин
    YDB
  Зал 3
DQ
3
- Смотреть запись
  Хорошие данные не случаются случайно
  Хорошие данные не случаются случайно. Поделюсь опытом создания инструмента, который помогает проверять данные автоматически — быстро, гибко и без боли.
  - Юрий Горынцев
    Arenadata Catalog
  Зал 2
- Смотреть запись
  Как мы искали инструменты для DQ и к чему в итоге пришли
  Обзор и сравнение существующих библиотек Python и самописного инструмента профилирования для анализа качества данных. Описание функционала инструмента.
  - Павел Павлюков
    Газпромбанк.Тех
  - Александр Свяжин
    Газпромбанк.Тех
  Зал 3
- Смотреть запись
  Data Quality as a Service — инструмент самообслуживания в большой компании
  Как внедрить Data Quality-инструмент с распределенной архитектурой, обеспечивающий бесперебойную работу для большого числа команд и являющийся единой точкой правды о качестве данных в системах компании.
  - Андрей Азеев
    МТС Web Services
  - Богдан Петров
    МТС Web Services
  Зал 3
MPP
1
- Смотреть запись
  DWH на StarRocks: год в production
  Реальный опыт построения DWH на StarRocks: архитектура, кейсы применения, подводные камни. Оправдал ли StarRocks наши ожидания.
  - Артем Маркин
    Передовые Платежные Решения
  Зал 2
Art&Science
1
- Смотреть запись
  Искусство и кибернетика
  Как кибернетический подход к отношениям природы и человека помогает в решении самых разных задач.
  - Дмитрий Булатов
  Зал 1
Без темы
4
- Смотреть запись
  State of Data 2025 от Программного комитета SmartData
  Год назад был первый опрос и первые результаты State of Data. В этот раз мы не просто посмотрим на результаты, но и увидим динамику: что же все-таки изменилось за год.
  - Олег Кочергин
    Positive Technologies
  - Сергей Бойцов
  Зал 1
- Не записывалось
  Круглый стол «Hadoop мертв, да здравствует Hadoop?!»
  10 лет назад Hadoop был синонимом больших данных. Cуществует мнение, что сегодня облачные платформы и современные стеки данных оставили его позади. Но так ли это на самом деле? Откровенно и не под запись обсудим, что же на самом деле происходит и как с этим жить.
  - Михаил Марюфич
    T-Банк
  - Алексей Белозерский
    VK Tech, VK Cloud
  - Виталий Моисеев
    Островок!
  - Игорь Дмитриев
    Wildberries & Russ
  - Дмитрий Зуев
    Positive Technologies
  Зал 2
- Не записывалось
  Lightning Talks
  Lightning talks — это отличный формат, чтобы динамично обсудить тему и найти единомышленников. Вас ждут 20-минутные доклады на профессиональные темы и живые обсуждения.
  - Артем Дубинин
    VK Tech / Tarantool
  - Дмитрий Швеенков
    VK Tech
  - Михаил Лукин
    Судо
  - Бронислав Житников
    Positive Technologies
  Зал 3
- Смотреть запись
  Закрытие конференции SmartData 2025
  Подводим итоги конференции, вспоминаем яркие моменты и рассказываем о дальнейших планах. Заходите в зал или подключайтесь к трансляции, чтобы ничего не пропустить!
  - Михаил Лукин
    Судо
  - Бронислав Житников
    Positive Technologies
  Зал 1

Расписание

Data Tools

Data Management

Architecture of Data Platforms

Use Cases

AI/LLM in Data

Database Internals

DQ

MPP

Art&Science

Без темы