Доклады конференции SmartData 2020

Jeff Zhang Alibaba Group
Jeff Zhang
Alibaba Group 
День 1 / 17:15  / Зал 2 / EN / Введение в технологию

Flink + Zeppelin: Streaming data analytics platform

In this talk, Jeff would talk about how to use Flink on Zeppelin to build your own streaming data analytics platform.

Neville Li Spotify
Neville Li
Spotify 
День 3 / 19:00  / Зал 3 / EN / Для практикующих инженеров

Scio — data processing at Spotify

We'll talk about the evolution of big data at Spotify, from Python, Hadoop, Hive, Storm, Scalding to today's world of cloud, and serverless computing.

Дмитрий Бугайченко Сбербанк
Дмитрий Бугайченко
Сбербанк 
День 4 / 10:45  / Зал 1 / RU /

Stateful streaming: Кейсы, паттерны, реализации

В докладе мы поговорим о популярном сейчас подходе к обработке данных — обработке потоков, уделив особое внимание работе с состоянием.

Евгений Ермаков Яндекс.Такси
Евгений Ермаков
Яндекс.Такси 
Николай Гребенщиков Яндекс.Такси
Николай Гребенщиков
Яндекс.Такси 
День 1 / 17:15  / Зал 4 / RU / Для практикующих инженеров

Highly Normalized Hybrid Model, Или как мы внедрили свою модель хранения данных

Структура DWH не очень гибкая и исправить это помогают современные подходы к проектированию: Data Vault и Anchorn modeling. Подробнее о том, что выбрать, в своем докладе расскажет Евгений.

Бронислав Житников Тинькофф
Бронислав Житников
Тинькофф 
День 1 / 17:15  / Зал 3 / RU /

Инициирующая загрузка в NiFi

Поговорим о NiFi инициирующей загрузке и о том, как упростить себе жизнь в использовании NiFi.

Александр Слуцкий Microsoft
Александр Слуцкий
Microsoft 
День 1 / 17:15  / Зал 1 / RU / Введение в технологию

Kusto (Azure Data Explorer): Интерактивная платформа Big Data Майкрософта

В докладе Александр расскажет, что отличает Kusto (Azure Data Explorer) от других решений, покажет, как сложная обработка лайв-стримов телеметрии размером в миллиарды строк (терабайты данных) может занимать секунды, и приоткроет занавес архитектуры на которой построен Kusto.

Андрей Титов NVIDIA
Андрей Титов
NVIDIA 
День 3 / 17:15  / Зал 1 / RU / Хардкор. Сложный низкоуровневый доклад, требующий от слушателя знаний технологии.

Advanced usage patterns of Scala UDF in PySpark

Андрей поделится своим опытом использования пользовательских функций в высокопроизводительных PySpark-приложениях.

Евгений Легкий Retable
Евгений Легкий
Retable 
День 3 / 17:15  / Зал 2 / RU / Введение в технологию

Retable DSL: Строим technology-agnostic data pipelines для современных стеков данных

Евгений расскажет о современных тенденциях Modern Data Stack, о преимуществах и недостатках старого (ETL) и нового (ELT) подходов и причинах, которые привели к созданию своего независимого DSL.

Николай Аверин Miro
Николай Аверин
Miro 
День 3 / 17:15  / Зал 3 / RU / Введение в технологию

SQL-миграции в Postgres под нагрузкой

Сделать миграцию таблицы при остановленной БД не проблема. Но что делать, если нужно сделать миграцию «на горячую»? Николай расскажет вам об этом в виде практических советов для PostgreSQL.

Валентин Азанов S7 Техлаб
Валентин Азанов
S7 Техлаб 
День 3 / 17:15  / Зал 4 / RU / Для практикующих инженеров

Predictive Maintenance в S7: Как данные помогают сделать ваш полет безопаснее

Доклад об опыте S7 в анализе телеметрии с различных бортов, о способах работы с такими данными, созданных инструментах и крутых инсайтах.

Павел Якунин ТехЦентр Дойче Банка
Павел Якунин
ТехЦентр Дойче Банка 
День 2 / 12:30  / Зал 4 / RU / Для практикующих инженеров

Безопасные интерактивные большие данные в банке: Business intelligence на Clickhouse

В докладе Павел расскажет чем вызвана фрагментация данных в его организации, и какие типичные сценарии аналитики из-за этого страдают. Также он объяснит, почему для Дойче Банка не сработал классический подход, и что они научились делать иначе.

Михаил Марюфич Mail.Ru Group
Михаил Марюфич
Mail.Ru Group 
День 2 / 12:30  / Зал 3 / RU / Для практикующих инженеров

CI/CD для Ml-моделей и датасетов

Существует не очень качественная модель DS в продакшене и теперь нет возможности ее переобучить или обновить. Чтобы избежать такого, приходите послушать доклад Михаила на эту тему.

Николай Марков Aligned Research Group
Николай Марков
Aligned Research Group 
День 2 / 12:30  / Зал 1 / RU / Хардкор. Сложный низкоуровневый доклад, требующий от слушателя знаний технологии.

Низкий уровень работы с данными

Поговорим о нескольких технологиях, которые помогут вам выжать из машины больше — JIT, BLAS и параллельность.

Максим Стаценко Яндекс
Максим Стаценко
Яндекс 
День 4 / 10:45  / Зал 2 / RU / Введение в технологию

Обзор технологий хранения больших данных. Плюсы, минусы, кому подойдет

Доклад Максима будет про плюсы и минусы различных решений для хранения данных: облака или bare metal, Hadoop&CO, Vertica, ClickHouse, ExaSol, GreenPlum (ArenaDataDB), RDBMS, Teradata и др.

Ольга Макарова ivi
Ольга Макарова
ivi 
Мария Носарева ivi
Мария Носарева
ivi 
День 2 / 10:45  / Зал 4 / RU / Для практикующих инженеров

Сегментация: Единое окно для знаний о пользователе

Мария и Ольга расскажут, как на JVM стеке и open source-технологиях построить аналитическую систему, многократно расширяющую возможности бизнеса.

Станислав Богатырев NEO Saint Petersburg Competence Center
Станислав Богатырев
NEO Saint Petersburg Competence Center 
День 2 / 10:45  / Зал 3 / RU / Хардкор. Сложный низкоуровневый доклад, требующий от слушателя знаний технологии.

NeoFS: Хранение объектных данных по своим правилам

Станислав хочет поделиться примером того, как можно заменить централизованный S3 для хранения сырых данных более доступным для решением, организовать политики так, чтобы обработка данных стала более эффективной. А также рассказать зачем там мультиграфы, гомоморфная криптография, многоходовые игры, доказательства с нулевым разглашением и прочий матан.

Александр Ермаков Arenadata
Александр Ермаков
Arenadata 
День 2 / 10:45  / Зал 2 / RU / Введение в технологию

Подходы к построению современной платформы данных. Проблематика и концепция реализации

Александр расскажет об основных характеристиках современной платформы данных, о различиях в архитектуре DWH, об используемых компонентах и open source дистрибутиве Hadoop.

Андрей Кузнецов Одноклассники
Андрей Кузнецов
Одноклассники 
День 2 / 10:45  / Зал 1 / RU / Введение в технологию

Пишем гибкие пайплайны для дата-платформ с Dagster

Зачем дружить Spark + Scala-джобы и Python-приложения? В докладе Андрей расскажет, зачем это нужно и как писать на Dagster пайплайны с переиспользуемыми блоками и гибкой архитектурой.

Андрей Жуков S7 Техлаб
Андрей Жуков
S7 Техлаб 
День 4 / 12:30  / Зал 2 / RU / Введение в технологию

Enterprise data platform: Инфраструктура данных как полигон для проверки бизнес-гипотез

Доклад об опыте S7 в построении платформы данных.

Артур Хачуян Tazeros
Артур Хачуян
Tazeros 
День 4 / 12:30  / Зал 1 / RU / Для практикующих инженеров

Наше хранилище для веб-аналитики

На примере истории построения хранилища для сервиса расширенной веб-аналитики, Артур расскажет, как за последние 5 лет эволюционировала система хранения и генерации отчетов в его проекте.

Владислав Шишков Lamoda
Владислав Шишков
Lamoda 
День 1 / 19:00  / Зал 4 / EN / Для практикующих инженеров

Версионирование структуры баз данных на примере хранилища

Владислав расскажет про версионирование структуры баз данных на примере хранилища в Lamoda.

Роман Коробейников VirtualHealth
Роман Коробейников
VirtualHealth 
День 1 / 19:00  / Зал 3 / RU / Для практикующих инженеров

По пути из Kafka в NiFi: Как не сломать и не потерять

В докладе рассказывается о построении отказоустойчивой схемы работы кластера Apache NiFi при использовании Apache Kafka в качестве источника входных данных.

Moon soo Lee Staroid, Inc.
Moon soo Lee
Staroid, Inc. 
День 1 / 19:00  / Зал 2 / EN / Введение в технологию

How we built Serverless Spark experience on Kubernetes

During this session, we'll talk about architecture, why Staroid used Kubernetes, what were the challenges, and how the company solved them. You will also see a working demo so you can get an idea of what the Serverless Spark experience looks like and how it benefits in your work.

Евгений Рыжик Microsoft
Евгений Рыжик
Microsoft 
День 1 / 19:00  / Зал 1 / RU / Хардкор. Сложный низкоуровневый доклад, требующий от слушателя знаний технологии.

Kusto (Azure Data Explorer): Architecture and internals

Доклад о принципах построения с нуля новой базы данных для работы с логами и телеметрией.

Jacek Laskowski
Jacek Laskowski
 
День 3 / 19:00  / Зал 2 / EN / Введение в технологию

The latest and greatest of Delta Lake

We don't have a complete description of the talk yet, but we are working on it. It will appear soon, stay tuned!

Алексей Коняев КРОК
Алексей Коняев
КРОК 
День 2 / 12:30  / Зал 2 / RU / Введение в технологию

Оцифровка рабочего в режиме реального времени

Какой путь проделывают данные с носимых устройств до пользовательского интерфейса системы Цифровой рабочий.