Is it possible to set up Spark so it never touches hard drives and hence be memory-fast? That's the question that Jacek is going to answer during the talk. You'll know a bit about the internals of Apache Spark and what parts are or could be memory-only and what challenges it poses.
In this talk, Andy will discuss the challenges in using ML to optimize DBMS knobs and the solutions we developed to address them. My presentation will be in the context of the OtterTune database tuning service. Andy will also highlight the insights learned from real-world installations of OtterTune for MySQL, Postgres, and Oracle.
В рамках этого доклада мы изучим Data Modelling Methodology, пошагово рассмотрим основные принципы создания эффективной модели данных. Ознакомимся с типичными кейсами и частыми ошибками, изучим правила, которые помогут вам выжать максимум из вашей СУБД и избежать распространённых проблем.
В рамках этого доклада мы изучим Data Modelling Methodology, пошагово рассмотрим основные принципы создания эффективной модели данных. Ознакомимся с типичными кейсами и частыми ошибками, изучим правила, которые помогут вам выжать максимум из вашей СУБД и избежать распространённых проблем.
In this talk Sabir will walk you through physical data layout optimizations available with Delta Lake. It will discuss factors that make a query execute fast.
Распределенные SQL-движки должны эффективно обрабатывать данные, расположенне на нескольких серверах. В докладе Владимир расскажет на примере Apache Flink и Presto, как устроены распределенные SQL-движки, и какие подходы они используют для увеличения производительности запросов.
Дмитрий расскажет о том, как организовать доступ и работу с данными специалистам разного профиля — инженерам, аналитикам, дата-сайентистам. Расскажет, как эволюционировали подходы к выделению вычислительных ресурсов и организации доступа, как менялся набор инструментов и подходов к моделированию, как развивались подходы к выводу результатов в промышленную эксплуатацию.
Представьте, что компании нужно выстроить мощную аналитическую платформу. ManyChat создал такую конфигурацию, выбирая новейшие инструменты исходя из максимального удобства и минимизации стоимости владения. Николай планирует описать процесс выбора на каждом этапе построения платформы, возможные риски и итоговый опыт использования.
В своем докладе Артур рассмотрит все стороны построения системы удаленной идентификации пользователей в вебе с учетом современных технических и юридических реальностей.
Роль инженера данных важна и критична. Но какими скиллами он должен обладать, насколько хорошо знать код, алгоритмы и data science?
Дмитрий смог выделить 2 типа инженеров данных и расскажет про них в этом докладе.
Участники дискуссии постараются затронуть разные каверзные вопросы в духе «насколько удобно хранить сырые данные НЕ в HDFS» и «можно ли просто всех пересадить на SQL-движок». А также «можно ли вызвать демона словами Data Mesh, Delta Lake, Anchor» и «как делать Kappa-архитектуру в реальной жизни и что это вообще такое».
BigData МТС выросла и заматерела, но некоторые проблемы, которые получили при наработке ML, все еще остаются. И, как выяснилось, они не одиноки в своей борьбе с ними.
Learn how lakeFS simplifies the management of a Data Lake by enabling git-like operations over files in object storage. See how common processes like experimentation, reproducing data and ensuring data quality are simplified with workflows centered around branching, committing, and the merging of data.
In this session, we will go in deep, with practical examples, on how to map external data with Vertica, which are the Vertica options to push down the queries to external data repositories and the technologies behind it.
Differences between Vertica and some other solutions will also be explained.
Поговорим о том, как прежде чем сделать какие-то изменения в пайплайне в производственной среде, нужно оценить потенциальное влияние на систему. Вы узнаете, что иногда пайплайн настолько сложный и запутанный в зависимостях, что предсказать финал, не проводя экспериментов, практически невозможно.
В докладе Кирилл расскажет, как МТС смогли запустить AI-сервис компьютерного зрения на EDGE устройствах в 500 офисах компаний. С каким подводными камнями команда столкнулась и как они смогли поддерживать весь флот устройств в актуальном состоянии, обрабатывать и проверять данные со всех офисов.
In this talk, Ton will discuss how to get faster and more secure access to data for testing purposes, by generating private data that (a) emulates the state of a dataset/database and (b) increases testing coverage. There are several tools available on OSS, but usually, the devil is in the detail.
В докладе будут обсуждаться темы открытой архитектуры Data Lake, форматы данных Apache Parquet и Apache Arrow. Зачем нужны форматы таблиц Apache Iceberg и Deltalake, и как проект Nessie поможет выстроить SQL Lakehouse на Data Lake.
В этом докладе Екатерина хочет рассказать о том, почему в Ситимобил выбрали именно Exasol в качестве СУБД для хранилища, а Data Vault в качестве модели данных.
Практически любая компания, оперирующая данными, быстро приходит к необходимости хранить и обрабатывать их в разных системах в зависимости от задач. В таком мире возникает запрос на сервис, который сможет быстро и эффективно перекладывать данные между этими мирами. Для решения данной задачи в Яндексе разработали Data Transfer и Андрей планирует рассказать о нем поподробнее.
Существует несколько вариантов как вставить данные в ClickHouse правильно, и еще больше как сделать это неправильно. Поговорим о том, как стоит добавлять данные в ClickHouse, какие есть подводные камни и как их избежать.
В этом докладе будет рассматриваться ETL-инструмент NiFi – поговорим о его плюсах и минусах, инструментах и способах мониторинга, о процессе разработки для большого числа команд.
В этом докладе поговорим про использование Trino. Вас ждет работа с данными из первоисточников, объединение и обогащение их, запросы с субсекундной скоростью. Обсудим скрытые возможности, новые функциональности, что есть в проекте или в его форках.
Erasure coding в Hadoop 3: история о том, как стремление к разумной экономии может обернуться (почти) катастрофой, и о том, как ее не допустить. Основано на реальных петабайтах данных и море слез.
Хранилище данных в Авито появилось уже больше 7 лет назад. За это время бизнес вырос в несколько раз, а инфраструктура значимо усложнилась. Евгений расскажет о том, как продуктовый подход к разработке платформы помогает решать десятки аналитических задач ежедневно без кратного роста команды DWH.
Доклад Ивана будет посвящён работе по созданию каталога данных DataCrafter на базе MongoDB, на основе больших разнородных общедоступных данных сложных форматов из неуправляемых источников.
Projector — это опенсорсная технология, позволяющая запускать на удаленных серверах IDE на основе IntelliJ и произвольные приложения на фреймворке Swing. Теперь вы можете открыть свою IDE прямо в браузере, где бы вы ни находились. Давайте заглянем, что там под капотом.
За последние десять лет облачные технологии совершили огромный шаг вперед и кардинально поменяли то, как мы подходим к построению систем. В этом докладе мы обсудим, как современные возможности облачной инфраструктуры меняют ключевые принципы и архитектуру баз данных. Мы посмотрим, как разделение compute и storage составляющих базы данных позволяет улучшить масштабируемость и доступность системы, обеспечивая при этом более предсказуемую стоимость для конечных пользователей.
В этом докладе мы поговорим о том, как собирать ETL, не выходя из любимой IDE. С помощью плагина Big Data Tools позволяет работать с ноутбуками Zeppelin, мониторить приложения Hadoop и Spark, смотреть облачные файловые системы — и всё это не переключаясь на консоль, браузер и другие инструменты.
Паша имеет огромный опыт в различных областях IT — от разработки и дата-инженерии до менеджмента и системного администрирорвания. Мы пообщаемся с Пашей о том, какие сейчас существуют тренды, из чего состоит жизнь дата-инженера и что поменялось на протяжении последних лет.
Мы поговорим про Hudi, DeltaLake, Iceberg и другие хранилища. Квази-изменяемые хранилища не только одна из самых горячих тем, но еще и довольно мистическая. Обсудим, что сейчас есть на рынке и куда это всё движется.
You'll be introduced to Exasol, the world's fastest analytical database. You will discover how Exasol can simplify your life and make having a data warehouse fun again.
Тематическая дискуссия не записывается
Apache Calcite — фреймворк, который позволяет добавить SQL-интерфейс к любому приложению. В данной лайвкодинг-сессии мы научим воображаемую СУБД выполнять SQL-запросы.