State of Data 2025 от Программного комитета SmartData
Описание скоро появится, следите за обновлениями.
Олег Кочергин
Positive Technologies
Описание скоро появится, следите за обновлениями.
Positive Technologies
Обсудим ключевые вызовы, стоящие перед Apache Iceberg, а также перспективы развития технологии.
CedrusData
Расскажу, как кодеки LZ4, ZSTD, Delta и DoubleDelta помогают увеличить скорость запросов и сократить объем хранения. Вы узнаете, какие вызовы возникают при их использовании в промышленных средах.
GlowByte
Как мы в Т-Банке построили свой BI-инструмент на базе Apache Superset, перестроили культуру BI, сделали синергию BI-аналитиков и разработчиков нашего BI-инструмента и успешно мигрировали с Табло.
Т-Банк
T-Банк
Расскажу о методе автоматизированной оптимизации конфигурирования Apache Spark для ETL-процессов с использованием метрик Spark и RAG-системы, что позволяет значительно оптимизировать утилизацию ETL-процессов.
MTС Web Services (MWS)
Расскажу, как мы используем Airflow на практике: от болей с sensors до удобства с datasets, от статичных DAG c кучей файлов — к динамическим и от стандартных возможностей — к собственным кастомным решениям, которые не оставят равнодушными тех, кто сталкивался с реальной эксплуатацией Airflow.
Инновационный центр «Безопасный транспорт»
Практический кейс внедрения мониторинга DWH от Skyeng: от архитектуры метаданных до автоматизированных проверок качества данных и перехода к DataOps-практикам.
Skyeng
Поговорим про Spark. Что он дал дата-инженерам? Почему многие из нас используют именно его?
Spark уже более 15 лет. С какими проблемами мы сталкиваемся при его использовании? Появилось ли что-то получше? Можно ли его уже чем-то заменить?
Почему %SQLEngineName% тормозит? Как это исправить? Бенчмарки, open source и тому подобное.
Navio
Описание пути разработки open source data lineage-решения на базе OpenLineage. Сравнение с другими опенсорс-решениями — OpenMetadata, DataHub, Marquez — и причина, почему отказались от них в пользу своей разработки. Нет, это не очередной кастомный Data Catalog :)
MTС Web Services (MWS)
Как задеплоить безопасный, мощный и масштабируемый LLM-сервис для крупной компании: с UI, API, модерацией и с поддержкой моделей под совершенно разные задачи.
Kaspersky
Мы ежедневно выгружаем из Greenplum в S3 сотни терабайтов. О том, какие подводные камни мы собрали и что в итоге получилось, вы сможете послушать в нашем докладе.
Т-Банк
Т-Банк
Как Яндекс Маркет начал писать документацию. Вы узнаете, как это происходило и с какими проблемами столкнулась компания. Рассмотрим разные подходы к описанию метаданных в хранилищах, сравним их между собой и поймем, стоит ли идти по этому пути.
Яндекс Маркет
Детальный обзор алгоритмов векторного поиска, наиболее популярных в современных системах управления базами данных.
История о том, как небольшая команда инженеров внедрила Hadoop с полноценной безопасностью на базе Kerberos и Ranger без остановки бизнес-процессов.
Детский мир
Расскажу про ИИ-ассистента, который помогает пользователям получать ответы на вопросы по данным. Вы узнаете, как мы в X5 Tech управляем качеством ответов и как данные и описание данных влияют на конечный результат.
X5 Tech
YDB прошла значительный путь развития от применения базовых методов векторного поиска до создания масштабируемого и эффективного векторного индекса. В докладе — подробный разбор этапов эволюции векторного поиска в YDB, включая анализ сложностей и инженерных решений.
Как мы переходили с платформы на базе Vertica, HDFS к новой архитектуре Dota 2 (второй версии нашей внутренней аналитической платформы), основанной на Apache Ozone (S3), Trino, Spark и Iceberg. Поделюсь опытом выбора хранилища, объясню, почему отказались от HDFS и почему выбрали Apache Ozone как on-prem реализацию S3.
Островок!
Хорошие данные не случаются случайно. Поделюсь опытом создания инструмента, который помогает проверять данные автоматически — быстро, гибко и без боли.
Arenadata Catalog
Как Data Lakehouse стал нашим спасательным кругом: обеспечил безболезненную миграцию при непрерывном потоке более 150 ТБ в день.
Navio
Navio
Расскажу о Spark Connect — новом подходе для работы с Apache Spark, который позволяет разрабатывать клиентскую часть приложения на любом языке и не зависеть от JVM. Поговорим об архитектуре Spark Connect и ее отличиях от классического Spark. Вы узнаете о проекте, в котором мы использовали Spark Connect API для C++.
Яндекс
Как строить осмысленные пайплайны Retrieval-Augmented Generation (RAG), в которых LLM не просто «угадывает» ответ по похожим чанкам, а осознанно исследует данные, исходя из их структуры и связей.
Epoch8
Обзор и сравнение существующих библиотек Python и самописного инструмента профилирования для анализа качества данных. Описание функционала инструмента.
Газпромбанк.Тех
Газпромбанк.Тех
Архитектуру сервиса тестирования и деплоя витрин в Авито и подходы, которые использовали в тестировании витрин.
Авито
Авито
Получение событий изменений из источников — довольно частая задача, которая может решаться разными способами. Одно из таких решений — Debezium. Но так ли с ним все просто и всегда ли именно это решение наилучшее? Постараюсь ответить на эти вопросы и рассмотреть Debezium с точки зрения сложностей, которые возникают на пути решения задачи захвата изменений.
Подходы к загрузке метаданных в Data Catalog достаточно часто рассматривают в линейном виде: минимум изменений, максимальное сохранение «истины». Но так ли это правильно?
Т-Банк
Платформа данных в нашей компании существует уже более 5 лет, за это время она вобрала множество модных (и не очень) решений. Расскажу, как мы пытались выбрать наше будущее среди ClickHouse, Greenplum и Trino, а нашли StarRocks.
Расскажем, как в Wildberries реализована ресерч-платформа на базе JupyterHub и Kubernetes для более чем 600 дата-сайентистов, решающих задачи в таких областях, как CV, NLP, OCR, рекомендации.
Wildberries & Russ
Wildberries & Russ
Потенциал применения AI для автоматизации процессов Data Governance на стороне пользователей платформы данных.
Т-Банк
Как команда Т-Банка перенесла DataOps на Kubernetes и не сошла с ума. Расскажу, как мы спроектировали и внедрили инфраструктуру для управления жизненным циклом ETL-задач с помощью Kubernetes-операторов, автоматизировали доставку DAG и интегрировали это в существующий DataOps. Разберу, что получилось, где набили шишки и чего категорически не стоит делать.
Т-Банк
Как в Яндексе удалось навести порядок в хаосе распределенных данных с помощью внутреннего сервиса дата-контрактов — без централизации, но с понятной ответственностью и прозрачными договоренностями.
Яндекс
База уже обложена read replica, но все равно не тянет — что делать?
Расскажу о том, как мы выбирали отказоустойчивую и масштабируемую СУБД для хранения финансовых данных, какие варианты отсеяли и по каким критериям. Почему мы остановились на YugabyteDB и про наш опыт с ней.
01.tech
Опыт применения движков исполнения Comet и Gluten (Velox) — от введения и особенностей сборки до результатов тестирования на реальных ETL. Расскажу о подводных камнях и неочевидных моментах, покажу результаты работы и рассмотрю кейсы, когда эти движки полезны, а когда вообще не работают.
Честный знак
Реальный опыт построения DWH на StarRocks: архитектура, кейсы применения, подводные камни. Оправдал ли StarRocks наши ожидания.
Передовые Платежные Решения
Как внедрить Data Quality-инструмент с распределенной архитектурой, обеспечивающий бесперебойную работу для большого числа команд и являющийся единой точкой правды о качестве данных в системах компании.
МТС Web Services
МТС Web Services
Как настроить и доработать Apache Spark под свои задачи без переписывания фреймворка. Расскажу о подходах к расширению функциональности Spark SQL без вмешательства в исходный код платформы. Вы узнаете о создании собственных источников данных, разработке пользовательских функций для специализированной обработки и внедрении правил оптимизации, адаптирующихся под различные запросы.
Честный знак
Как измерить качество платформы данных и управлять ее развитием? Расскажу, как в Яндекс Доставке мы построили систему метрик для оценки 7 ключевых направлений — от стабильности инфраструктуры до использования данных бизнесом.
Яндекс Доставка
Что такое metastore, как он работает в экосистеме больших данных, какие решения существуют на рынке и почему мы решили разработать собственный. Поделюсь практическим опытом, архитектурой и уроками, которые мы извлекли.
Positive Technologies
Как кибернетический подход к отношениям природы и человека помогает в решении самых разных задач.
Подводим итоги конференции, вспоминаем яркие моменты и рассказываем о дальнейших планах. Заходите в зал или подключайтесь к трансляции, чтобы ничего не пропустить!