• Смотреть запись

    Тип доклада: Доклад

    Highly Normalized Hybrid Model, Или как мы внедрили свою модель хранения данных

    Структура DWH не очень гибкая и исправить это помогают современные подходы к проектированию: Data Vault и Anchorn modeling. Подробнее о том, что выбрать, в своем докладе расскажут Николай и Евгений.

  • Смотреть запись

    Тип доклада: Обсуждение

    Открытие

    Узнайте, что вас ждет в ближайшие 4 дня. Члены Программного комитета расскажут о расписании, интересных докладах и о том, в каком формате они пройдут. А команда организаторов конференции в свою очередь расскажет, как работает наша платформа, где будут проходить дискуссионные зоны, как подключаться к чатам и где задавать вопросы спикерам.

  • Смотреть запись

    Тип доклада: Доклад

    Низкий уровень работы с данными

    Поговорим о нескольких технологиях, которые помогут вам выжать из машины больше — JIT, BLAS и параллельность.

  • Смотреть запись

    Тип доклада: Доклад

    How to master time and space

    Applying MLOps to a high-performance geospatial data platform for the edge and cloud.

  • Смотреть запись

    Тип доклада: Доклад

    How we built Serverless Spark experience on Kubernetes

    During this session, we'll talk about architecture, why Staroid used Kubernetes, what were the challenges, and how the company solved them. You will also see a working demo so you can get an idea of what the Serverless Spark experience looks like and how it benefits in your work.

  • Смотреть запись

    Тип доклада: Доклад

    По пути из Kafka в NiFi: Как не сломать и не потерять

    В докладе рассказывается о построении отказоустойчивой схемы работы кластера Apache NiFi при использовании Apache Kafka в качестве источника входных данных.

  • Смотреть запись

    Тип доклада: Доклад

    Kusto (Azure Data Explorer): Architecture and internals

    Доклад о принципах построения с нуля новой базы данных для работы с логами и телеметрией.

  • Смотреть запись

    Тип доклада: Доклад

    Подходы к построению современной платформы данных. Проблематика и концепция реализации

    Александр расскажет об основных характеристиках современной платформы данных, о различиях в архитектуре DWH, об используемых компонентах и open source дистрибутиве Hadoop.

  • Смотреть запись

    Тип доклада: Доклад

    AI-augmented data preparation: Строим technology-agnostic data pipelines для современных стеков данных вместе с AI

    Евгений расскажет о современных тенденциях Modern Data Stack, о преимуществах и недостатках старого (ETL) и нового (ELT) подходов и причинах, которые привели к созданию своего независимого DSL.

  • Смотреть запись

    Тип доклада: Доклад

    Как мы разрабатываем DMP для Такси, Еды и Лавки

    Владимир расскажет про мотивацию, которая нужна для разработки собственного ETL-инструмента, про превращение ETL и DWH в DMP. Спикер поделится тем, какие проблемы возникают в процессе разработки DMP и расскажет про опыт их решения.

  • Смотреть запись

    Тип доклада: Доклад

    Kotlin API for Apache Spark: Зачем мы сделали ещё один API для работы со Spark

    Паша с Виталиком поговорят о том, из чего выбирают дата-инженеры и почему решили сделать API для одного из самых популярных фреймворков для построения пайплайнов.

  • Смотреть запись

    Тип доклада: Доклад

    How to master time and space

    Applying MLOps to a high-performance geospatial data platform for the edge and cloud.

  • Смотреть запись

    Тип доклада: Доклад

    Пишем гибкие пайплайны для дата-платформ с Dagster

    Зачем дружить Spark + Scala-джобы и Python-приложения? В докладе Андрей расскажет, зачем это нужно и как писать на Dagster пайплайны с переиспользуемыми блоками и гибкой архитектурой.

  • Смотреть запись

    Тип доклада: Доклад

    SQL-миграции в Postgres под нагрузкой

    Сделать миграцию таблицы при остановленной БД не проблема. Но что делать, если нужно сделать миграцию «на горячую»? Николай расскажет вам об этом в виде практических советов для PostgreSQL.

  • Смотреть запись

    Тип доклада: Доклад

    Безопасные интерактивные большие данные в банке: Business intelligence на Clickhouse

    В докладе Павел расскажет чем вызвана фрагментация данных в его организации, и какие типичные сценарии аналитики из-за этого страдают. Также он объяснит, почему для Дойче Банка не сработал классический подход, и что они научились делать иначе.

  • Смотреть запись

    Тип доклада: Доклад

    Stateful streaming: Кейсы, паттерны, реализации

    В докладе мы поговорим о популярном сейчас подходе к обработке данных — обработке потоков, уделив особое внимание работе с состоянием.

  • Смотреть запись

    Тип доклада: Доклад

    CI/CD для Ml-моделей и датасетов

    Существует не очень качественная модель DS в продакшене и теперь нет возможности ее переобучить или обновить. Чтобы избежать такого, приходите послушать доклад Михаила на эту тему.

  • Смотреть запись

    Тип доклада: Доклад

    Scio — data processing at Spotify

    We'll talk about the evolution of big data at Spotify, from Python, Hadoop, Hive, Storm, Scalding to today's world of cloud, and serverless computing.

  • Смотреть запись

    Тип доклада: Доклад

    NeoFS: Хранение объектных данных по своим правилам

    Станислав хочет поделиться примером того, как можно заменить централизованный S3 для хранения сырых данных более доступным для решением, организовать политики так, чтобы обработка данных стала более эффективной. А также рассказать зачем там мультиграфы, гомоморфная криптография, многоходовые игры, доказательства с нулевым разглашением и прочий матан.

  • Смотреть запись

    Тип доклада: Доклад

    The latest and greatest of Delta Lake

    This talk is a gentle introduction to the latest and greatest of Delta Lake. You will learn what Delta Lake is and what challenges it aims to solve.

  • Смотреть запись

    Тип доклада: Доклад

    Демо: Big Data tools

    Мы представим новый продукт компании JetBrains — Big Data Tools и расскажем, какие задачи он решает, покажем демо, разберем примеры использования. На все ваши вопросы ответят разработчики, непосредственно участвующие в создании BDT.

  • Смотреть запись

    Тип доклада: Доклад

    Обзор технологий хранения больших данных. Плюсы, минусы, кому подойдет

    Доклад Максима будет про плюсы и минусы различных решений для хранения данных: облака или bare metal, Hadoop&CO, Vertica, ClickHouse, ExaSol, GreenPlum (ArenaDataDB), RDBMS, Teradata и др.

  • Смотреть запись

    Тип доклада: Доклад

    Kusto (Azure Data Explorer): Интерактивная платформа Big Data Майкрософта

    В докладе Александр расскажет, что отличает Kusto (Azure Data Explorer) от других решений, покажет, как сложная обработка лайв-стримов телеметрии размером в миллиарды строк (терабайты данных) может занимать секунды, и приоткроет занавес архитектуры на которой построен Kusto.

  • Смотреть запись

    Тип доклада: Доклад

    Наше хранилище для веб-аналитики

    На примере истории построения хранилища для сервиса расширенной веб-аналитики, Артур расскажет, как за последние 5 лет эволюционировала система хранения и генерации отчетов в его проекте.

  • Смотреть запись

    Тип доклада: Обсуждение

    Закрытие

    Присоединяйтесь к подведению итогов SmartData вместе с Программным Комитетом: рассмотрим наиболее интересные доклады и обсуждения, а также доклады, к которым стоит вернуться после конференции.

  • Смотреть запись

    Тип доклада: Доклад

    Сегментация: Единое окно для знаний о пользователе

    Мария и Ольга расскажут, как на JVM стеке и open source-технологиях построить аналитическую систему, многократно расширяющую возможности бизнеса.

  • Смотреть запись

    Тип доклада: Доклад

    Flink + Zeppelin: Streaming data analytics platform

    In this talk, Jeff would talk about how to use Flink on Zeppelin to build your own streaming data analytics platform.