Доклады конференции SmartData 2021

Ton Badal Synthesized
Ton Badal
Synthesized 
День 2 / 18:30  / Зал 1 / EN / Введение в технологию

Optimizing test data coverage in functional testing

In this talk, Ton will discuss how to get faster and more secure access to data for testing purposes, by generating private data that (a) emulates the state of a dataset/database and (b) increases testing coverage. There are several tools available on OSS, but usually, the devil is in the detail.

Itai Admi Treeverse
Itai Admi
Treeverse 
День 4 / 18:30  / Зал 1 / EN / Для практикующих инженеров

Create a git-like experience for Data Lake analytics

Learn how lakeFS simplifies the management of a Data Lake by enabling git-like operations over files in object storage. See how common processes like experimentation, reproducing data and ensuring data quality are simplified with workflows centered around branching, committing, and the merging of data.

Иван Бегтин Инфокультура
Иван Бегтин
Инфокультура 
День 1 / 18:30  / Зал 2 / RU / Для практикующих инженеров

Каталог и озеро данных на базе MongoDB, собираем технологический стек по кусочкам

Доклад Ивана будет посвящён работе по созданию каталога данных DataCrafter на базе MongoDB, на основе больших разнородных общедоступных данных сложных форматов из неуправляемых источников.

Sabir Akhadov Databricks Inc
Sabir Akhadov
Databricks Inc 
День 1 / 18:30  / Зал 1 / EN / Для практикующих инженеров

Delta Lake data layout optimization

In this talk Sabir will walk you through physical data layout optimizations available with Delta Lake. It will discuss factors that make a query execute fast.

Александр Волочнев Datastax
Александр Волочнев
Datastax 
День 3 / 17:00  / Зал 3 / RU / Для практикующих инженеров

Воркшоп. Создание эффективной модели данных для высоконагруженных приложений с Apache Cassandra (часть 1)

В рамках этого доклада мы изучим Data Modelling Methodology, пошагово рассмотрим основные принципы создания эффективной модели данных. Ознакомимся с типичными кейсами и частыми ошибками, изучим правила, которые помогут вам выжать максимум из вашей СУБД и избежать распространённых проблем.

Артем Шутак Mail.ru Group
Артем Шутак
Mail.ru Group 
День 3 / 17:00  / Зал 2 / RU / Для практикующих инженеров

Вставить в ClickHouse и не умереть

Существует несколько вариантов как вставить данные в ClickHouse правильно, и еще больше как сделать это неправильно. Поговорим о том, как стоит добавлять данные в ClickHouse, какие есть подводные камни и как их избежать.

Jacek Laskowski
Jacek Laskowski
 
День 3 / 17:00  / Зал 1 / EN / Введение в технологию

Apache Spark as an in-memory-only data processing engine?

Is it possible to set up Spark so it never touches hard drives and hence be memory-fast? That's the question that Jacek is going to answer during the talk. You'll know a bit about the internals of Apache Spark and what parts are or could be memory-only and what challenges it poses.

Дмитрий Ибрагимов Leroy Merlin
Дмитрий Ибрагимов
Leroy Merlin 
День 3 / 20:00  / Зал 3 / RU / Для практикующих инженеров

NiFi on a large scale: Архитектура, мониторинг, лучшие практики

В этом докладе будет рассматриваться ETL-инструмент NiFi – поговорим о его плюсах и минусах, инструментах и способах мониторинга, о процессе разработки для большого числа команд.

Андрей Терехов Яндекс
Андрей Терехов
Яндекс 
День 3 / 20:00  / Зал 2 / RU / Для практикующих инженеров

Как устроена поставка данных в Яндексе и почему мы больше не боимся перекладывать JSON'ы

Практически любая компания, оперирующая данными, быстро приходит к необходимости хранить и обрабатывать их в разных системах в зависимости от задач. В таком мире возникает запрос на сервис, который сможет быстро и эффективно перекладывать данные между этими мирами. Для решения данной задачи в Яндексе разработали Data Transfer и Андрей планирует рассказать о нем поподробнее.

Vishnu Chanderraju eyeota.com
Vishnu Chanderraju
eyeota.com 
День 3 / 20:00  / Зал 1 / EN / Для практикующих инженеров

Spark Yoga — saving time & money with lean data pipelines

The talk will focus exclusively on Apache Spark & cost-based engineering will be the theme.

Кирилл Овчинников МТС
Кирилл Овчинников
МТС 
День 2 / 17:00  / Зал 3 / RU / Для практикующих инженеров

Обработка и проверка данных для компьютерного зрения в офисах продаж МТС по всей России

В докладе Кирилл расскажет, как МТС смогли запустить AI-сервис компьютерного зрения на EDGE устройствах в 500 офисах компаний. С каким подводными камнями команда столкнулась и как они смогли поддерживать весь флот устройств в актуальном состоянии, обрабатывать и проверять данные со всех офисов.

Роман Кондаков Querify Labs
Роман Кондаков
Querify Labs 
День 2 / 17:00  / Зал 2 / RU / Хардкор. Сложный низкоуровневый доклад, требующий от слушателя знаний технологии.

Как прикрутить SQL к чему угодно при помощи Apache Calcite

Рассказ о том, как с помощью Apache Calcite сделать слой SQL поверх любого хранилища.

Tejas Chopra Netflix
Tejas Chopra
Netflix 
День 2 / 17:00  / Зал 1 / EN / Для практикующих инженеров

An experience report on strategies for working with Cloud Storage

This talk focuses on techniques employed in hybrid storage systems to reduce cloud footprint and improve efficiencies.

Николай Марков Aligned Research Group
Николай Марков
Aligned Research Group 
Максим Стаценко Яндекс
Максим Стаценко
Яндекс 
Наталья Хапаева МТС
Наталья Хапаева
МТС 
Николай Трошнев
Николай Трошнев
 
Валдис Пукис Evolution
Валдис Пукис
Evolution 
День 4 / 20:00  / Зал 3 / RU / Введение в технологию

Круглый стол: Что, если не Hadoop

Участники дискуссии постараются затронуть разные каверзные вопросы в духе «насколько удобно хранить сырые данные НЕ в HDFS» и «можно ли просто всех пересадить на SQL-движок». А также «можно ли вызвать демона словами Data Mesh, Delta Lake, Anchor» и «как делать Kappa-архитектуру в реальной жизни и что это вообще такое».

Сергей Ярымов МТС
Сергей Ярымов
МТС 
День 4 / 20:00  / Зал 2 / RU / Для практикующих инженеров

Как мы строим Feature store

BigData МТС выросла и заматерела, но некоторые проблемы, которые получили при наработке ML, все еще остаются. И, как выяснилось, они не одиноки в своей борьбе с ними.

Николай Валиотти Valiotti Analytics
Николай Валиотти
Valiotti Analytics 
День 4 / 20:00  / Зал 1 / RU / Введение в технологию

Self-service BI: Практика построения модели данных

Разбор прикладного использования self-service BI в части построения модели данных.

Александр Волочнев Datastax
Александр Волочнев
Datastax 
День 3 / 18:30  / Зал 3 / RU / Для практикующих инженеров

Воркшоп. Создание эффективной модели данных для высоконагруженных приложений с Apache Cassandra (часть 2)

В рамках этого доклада мы изучим Data Modelling Methodology, пошагово рассмотрим основные принципы создания эффективной модели данных. Ознакомимся с типичными кейсами и частыми ошибками, изучим правила, которые помогут вам выжать максимум из вашей СУБД и избежать распространённых проблем.

Екатерина Колпакова Ситимобил
Екатерина Колпакова
Ситимобил 
День 3 / 18:30  / Зал 2 / RU / Для практикующих инженеров

Сказ про то, как мы DWH строим: От реплик MySQL до Exasol + ClickHouse

В этом докладе Екатерина хочет рассказать о том, почему в Ситимобил выбрали именно Exasol в качестве СУБД для хранилища, а Data Vault в качестве модели данных.

Денис Ефаров Mail.ru Group
Денис Ефаров
Mail.ru Group 
День 1 / 18:30  / Зал 3 / RU / Для практикующих инженеров

Hadoop 3: Erasure coding catastrophe

Erasure coding в Hadoop 3: история о том, как стремление к разумной экономии может обернуться (почти) катастрофой, и о том, как ее не допустить. Основано на реальных петабайтах данных и море слез.

Артем Юдовин Profitero
Артем Юдовин
Profitero 
День 2 / 20:00  / Зал 3 / RU / Для практикующих инженеров

От одной большой ETL-джобы до процесса проведения экспериментов над дата-пайплайнами

Поговорим о том, как прежде чем сделать какие-то изменения в пайплайне в производственной среде, нужно оценить потенциальное влияние на систему. Вы узнаете, что иногда пайплайн настолько сложный и запутанный в зависимостях, что предсказать финал, не проводя экспериментов, практически невозможно.

Владимир Озеров Querify Labs
Владимир Озеров
Querify Labs 
День 2 / 20:00  / Зал 2 / RU / Хардкор. Сложный низкоуровневый доклад, требующий от слушателя знаний технологии.

Архитектура высокопроизводительных распределенных SQL-движков

Распределенные SQL-движки должны эффективно обрабатывать данные, расположенне на нескольких серверах. В докладе Владимир расскажет на примере Apache Flink и Presto, как устроены распределенные SQL-движки, и какие подходы они используют для увеличения производительности запросов.

Gianluigi Vigano Vertica
Gianluigi Vigano
Vertica 
Maurizio Felici Vertica
Maurizio Felici
Vertica 
Marco Gessner Vertica
Marco Gessner
Vertica 
День 2 / 20:00  / Зал 1 / EN / Для практикующих инженеров

How to bring advanced analytics to hybrid data storage with Vertica

In this session, we will go in deep, with practical examples, on how to map external data with Vertica, which are the Vertica options to push down the queries to external data repositories and the technologies behind it. Differences between Vertica and some other solutions will also be explained.

Евгений Ермаков Яндекс Go
Евгений Ермаков
Яндекс Go 
Николай Гребенщиков Яндекс Go
Николай Гребенщиков
Яндекс Go 
День 1 / 17:00  / Зал 3 / RU / Для практикующих инженеров

Greenplum и Anchor modeling: Как мечты разбиваются о реальность

В этом докладе Евгений и Николай хотели бы рассказать, как мечты об архитектурной красоте разбиваются о будни реальности.

Евгений Николаев Авито
Евгений Николаев
Авито 
День 1 / 17:00  / Зал 2 / RU / Введение в технологию

DWH как продукт

Хранилище данных в Авито появилось уже больше 7 лет назад. За это время бизнес вырос в несколько раз, а инфраструктура значимо усложнилась. Евгений расскажет о том, как продуктовый подход к разработке платформы помогает решать десятки аналитических задач ежедневно без кратного роста команды DWH.

Ash Berlin-Taylor Astronomer.io
Ash Berlin-Taylor
Astronomer.io 
День 1 / 17:00  / Зал 1 / EN / Для практикующих инженеров

Apache Airflow 2.3 and beyond: What comes next?

Find out what is coming down the pipe for Apache Airflow in version 2.3 and beyond.

Артем Алиев Huawei
Артем Алиев
Huawei 
День 1 / 20:00  / Зал 3 / RU / Хардкор. Сложный низкоуровневый доклад, требующий от слушателя знаний технологии.

Trino (Presto) DB: Zero copy lakehouse

В этом докладе поговорим про использование Trino. Вас ждет работа с данными из первоисточников, объединение и обогащение их, запросы с субсекундной скоростью. Обсудим скрытые возможности, новые функциональности, что есть в проекте или в его форках.

Дмитрий Зуев Ozon
Дмитрий Зуев
Ozon 
День 1 / 20:00  / Зал 2 / RU / Для практикующих инженеров

«Функциональный» Spark

В этом докладе Дмитрий расскажет, как писать на Spark функционально, используя Scala на максималках.

Andy Pavlo Carnegie Mellon University
Andy Pavlo
Carnegie Mellon University 
День 1 / 20:00  / Зал 1 / EN / Введение в технологию

Lessons learned from using machine learning to optimize database configurations

In this talk, Andy will discuss the challenges in using ML to optimize DBMS knobs and the solutions we developed to address them. My presentation will be in the context of the OtterTune database tuning service. Andy will also highlight the insights learned from real-world installations of OtterTune for MySQL, Postgres, and Oracle.

Михаил Солодягин Tele2
Михаил Солодягин
Tele2 
Сергей Юнк Tele2
Сергей Юнк
Tele2 
Вадим Суханов Tele2
Вадим Суханов
Tele2 
День 2 / 18:30  / Зал 3 / RU / Для практикующих инженеров

Airflow 2.х SaaS

Реализация Airflow SaaS в частном облаке K8s и опыт миграции с Airflow 1.x на Airflow 2.x SaaS.

Николай Голов ManyChat
Николай Голов
ManyChat 
День 2 / 18:30  / Зал 2 / RU / Для практикующих инженеров

Этапы построения платформы аналитических данных в облаках

Представьте, что компании нужно выстроить мощную аналитическую платформу. ManyChat создал такую конфигурацию, выбирая новейшие инструменты исходя из максимального удобства и минимизации стоимости владения. Николай планирует описать процесс выбора на каждом этапе построения платформы, возможные риски и итоговый опыт использования.

Дмитрий Бугайченко Сбер
Дмитрий Бугайченко
Сбер 
День 4 / 17:00  / Зал 3 / RU / Введение в технологию

Рабочее место D-people — опыт Сбер

Дмитрий расскажет о том, как организовать доступ и работу с данными специалистам разного профиля — инженерам, аналитикам, дата-сайентистам. Расскажет, как эволюционировали подходы к выделению вычислительных ресурсов и организации доступа, как менялся набор инструментов и подходов к моделированию, как развивались подходы к выводу результатов в промышленную эксплуатацию.

Кирилл Рыбачук Cherry Labs
Кирилл Рыбачук
Cherry Labs 
День 4 / 17:00  / Зал 2 / RU / Для практикующих инженеров

Цикл жизни ML-моделей в Cherry Labs

Как построить пайплайн ML в computer vision-стартапе.

Valerie Wiedemann EXASOL
Valerie Wiedemann
EXASOL 
Christian Langmayr Exasol
Christian Langmayr
Exasol 
День 4 / 17:00  / Зал 1 / EN / Введение в технологию

How an analytical database stopped me smoking: A practical story with Exasol

You'll be introduced to Exasol, the world's fastest analytical database. You will discover how Exasol can simplify your life and make having a data warehouse fun again.

Паша Финкельштейн JetBrains
Паша Финкельштейн
JetBrains 
День 4 / 18:30  / Зал 2 / RU / Введение в технологию

Воркшоп. Делаем жизнь инженеров проще с Big Data Tools

В этом докладе обсудим из чего состоит жизнь дата-инженера и как можно ему помочь, используя Big Data Tools.

Дмитрий Аношин Microsoft
Дмитрий Аношин
Microsoft 
День 4 / 18:30  / Зал 3 / RU / Введение в технологию

Два типа инженеров данных

Роль инженера данных важна и критична. Но какими скиллами он должен обладать, насколько хорошо знать код, алгоритмы и data science? Дмитрий смог выделить 2 типа инженеров данных и расскажет про них в этом докладе.

Виктор Кесслер Dremio
Виктор Кесслер
Dremio 
День 3 / 18:30  / Зал 1 / RU / Для практикующих инженеров

Dremio SQL Lakehouse: Быстрые данные для всех

В докладе будут обсуждаться темы открытой архитектуры Data Lake, форматы данных Apache Parquet и Apache Arrow. Зачем нужны форматы таблиц Apache Iceberg и Deltalake, и как проект Nessie поможет выстроить SQL Lakehouse на Data Lake.