Начало основного контента

  • Смотреть запись

    Тип доклада: Доклад

    Изменить неизменяемое. Опыт наката мутаций на данные HDFS при помощи Spark

    Никита расскажет об опыте использования Delta, Apache Hudi и внутренних разработок для решения проблемы update-ов строк, хранящихся в Parquet на HDFS.

    Доклад будет интересен дата-инженерам, использующим Spark и immutable storage.

  • Не записывалось

    Тип доклада: BOF-сессия от партнера

    Развитие внутренних DE-инструментов: как сделать так, чтобы ими пользовались больше одного человека

    На BoF, в отличие от докладов и круглых столов, нет деления на участников и ведущих — здесь все общаются друг с другом на равных, главное — не оффтопить и обсуждать тему. 

    Обсудим, как развивать внутренние DE-инструменты, чтобы ими стали пользоваться больше одного человека.

  • Смотреть запись

    Тип доклада: Интервью

    Интервью с Андреем Кузнецовым и Михаилом Марюфичем, Одноклассники

    Поговорим с Андреем и Михаилом про дата-инжиниринг в «Одноклассниках» и обсудим другие темы. Присоединяйтесь!

  • Смотреть запись

    Тип доклада: Доклад

    Хранилище есть, а дальше что? Документация и другие способы улучшить DX ваших коллег

    Инженеры, аналитики и менеджеры хотя и делают разные задачи, глобально хотят чтобы их работа приносила им удовольствие или как минимум была не слишком затруднительной. Игорь расскажет, какими способами и процессами можно повысить Developer Experience всех этих ребят.

  • Смотреть запись

    Тип доклада: Доклад

    Использование платформы GrowthBook для управления ML-экспериментами

    Поговорим об одном из способов организации пайплайна экспериментов на основе открытой платформы GrowthBook, когда ответственность за запуск и тестирование фичей лежит на команде ML-разработчиков. Предлагаемый подход призван уменьшить количество интеграций на стороне основной команды разработки и одновременно повысить скорость вывода в production новых версий моделей машинного обучения.

  • Смотреть запись

    Тип доклада: Доклад

    Как моделирование данных помогает повысить качество данных и отчетов и снизить требования к опыту аналитиков

    Спикеры расскажут про эволюцию подхода к разработке клиентских аналитических проектов и про моделирование данных. Вы узнаете, как в команде пришли к тому, что этап создания модели данных стал ключевым для проектов. Также узнаете, какие бонусы получает проект, если начинать разработку с создания модели данных.

  • Смотреть запись

    Тип доклада: Доклад

    Как устроено выполнение SQL-запросов в Presto/Trino

    Presto/Trino — это высокопроизводительный распределенный SQL-движок для больших данных с serverless-архитектурой. В докладе подробно рассмотрим, как устроено выполнение запросов в Presto/Trino.

  • Смотреть запись

    Тип доклада: Доклад

    Инжиниринг данных в «Майкрософт»

    Дмитрий расскажет про особенности работы инженером данных в «Майкрософт» и про свой двухлетний опыт с момента трудоустройства. 

  • Смотреть запись

    Тип доклада: Доклад

    Открытие

    Говорим о расписании, сессиях и активностях. Подключайтесь, чтобы узнать, что вас будет ждать в эфире в ближайшее время!

  • Смотреть запись

    Тип доклада: Доклад

    Сказ про то, как Toloka Ai мигрировала на Modern Data Stack

    Перед командой платформы данных Toloka Ai была поставлена задача: «Azure. Modern Data Stack. Завтра». Ярко звучащие названия, которые у всех на слуху и интересны каждому специалисту в области работы с данными, — Data Lakehouse, Cloud Data Platform, Data Mesh, Data Fabric — теперь стали новой реальностью.

    Спикеры расскажут обо всех стадиях работы с Modern Data Stack и затронут различные вопросы построения современной платформы данных: от выбора инструментов до проблем переезда.

  • Смотреть запись

    Тип доклада: Доклад

    Ingest-слой платформы данных: смешать, но не взбалтывать

    Рассказ о том, как в рамках платформы данных СберЗдоровья команда спикера построила Ingest-слой для внутренних и внешних источников и не забыла про работу с чувствительными данными и дата-каталог. Поскольку платформа должна абстрагировать компоненты под собой, то речь пойдет и про DSL, с помощью которого этим всем управляют.


  • Смотреть запись

    Тип доклада: Мастер-класс

    Многоликая pandas

    По ходу мастер-класса пройдем путь от начинающего DS, который может просто крутить небольшие данные с помощью pandas через параллельную обработку и использование Dask, до распределенной обработки средствами Spark.

  • Смотреть запись

    Тип доклада: Обсуждение

    Открытие офлайн-части конференции SmartData 2022

    Говорим о расписании, сессиях и делимся информацией. Приходите в зал или подключайтесь онлайн, чтобы узнать, что вас будет ждать в ближайшее время!

  • Смотреть запись

    Тип доклада: Доклад

    Использование Pentaho DI

    Спикер расскажет, какие задачи решаются с помощью ETL Pentaho. Вы узнаете, как быстро решить задачи по загрузке данных и как быстро провести аналитику данных. А также, какие фишки Pentaho помогают перегружать большое количество таблиц в DWH.

  • Смотреть запись

    Тип доклада: Доклад

    Data Vault на Greenplum c помощью DBT

    Вы узнаете, как в SPT делают Data Vault на Greenplum с помощью DBT и про оркестровку ELT-пайплайна с помощью Dagster. Спикер уделит внимание тонкостям работы с DBT и тому, как использовать его в связке с Greenplum. Также затронет реализованный адаптер и патч для пакета dbtvault.

    Информация будет подана в контексте построения Data Vault на тестовых данных. В процессе спикер выделит из плоских данных хабы, линки и саттелиты и настроит батчевое наполнение хранилища с помощью указанного стека.

  • Смотреть запись

    Тип доклада: Доклад

    Подведение итогов online-части конференции SmartData 2022

    Подводим итоги, вспоминаем яркие моменты и рассказываем о дальнейших планах. Заходите на трансляцию, чтобы ничего не пропустить!

  • Смотреть запись

    Тип доклада: Доклад

    Что такое DevOps в мире хранилищ данных?

    Через сервисы Почтатеха проходят петабайты данных. С ними работают десятки команд и подразделений, используя кучу фреймворков и технологий. Большинство этих данных хранится и развивается в DataCloud. Василий расскажет, как применяют DevOps-практики в работе с хранилищами данных и как благодаря этому уменьшить time-to-market.

  • Смотреть запись

    Тип доклада: Доклад

    Распределенный высоконагруженный feature store ОК

    Спикер расскажет, зачем в его команде написали собственный feature store ОК, как он устроен и как эксплуатируется.

  • Смотреть запись

    Тип доклада: Доклад

    Открытие конференции SmartData 2022

    Говорим о расписании, сессиях и активностях. Подключайтесь, чтобы узнать, что вас будет ждать в эфире в ближайшее время!

  • Смотреть запись

    Тип доклада: Интервью

    Интервью с Евгением Ермаковым

    Каверзные и простые, серьезные и ироничные, прямолинейные и возможно даже риторические вопросы Евгению Ермакову зададут ведущие SmartData 2022. Присоединяйтесь к беседе и задавайте ваши вопросы в чате!

  • Смотреть запись

    Тип доклада: Обсуждение

    Закрытие конференции SmartData 2022

    Подводим итоги конференции, вспоминаем яркие моменты и рассказываем о дальнейших планах. Заходите в зал или подключайтесь к трансляции, чтобы ничего не пропустить!

  • Смотреть запись

    Тип доклада: Доклад

    Большие данные — большая ответственность. Опыт защиты от утечек в аналитических системах

    Алексей расскажет про свой опыт внедрения технических и административных мер, которые в короткий срок помогли защитить данные из аналитических систем от потенциальной кражи и при этом не поломать существующие бизнес-процессы компании.

    Внедренные изменения повлияли на работу более чем 3000 сотрудников компании (пользователей отчетности, аналитиков и инженеров данных).

  • Смотреть запись

    Тип доклада: Доклад от партнера

    Нетипичное использование Kafka

    Чаще всего Kafka используется как брокер сообщений, в некоторых случаях ее можно использовать как кэш или базу данных. В команде спикера нашли еще одно применение — использовать ее как «буфер» в потоках данных. О том, как пришли к этому решению и какие неочевидные плюсы оно дает, вы узнаете из доклада. Будет интересно ETL-разработчикам, дата-инженерам и архитекторам.

  • Смотреть запись

    Тип доклада: Доклад

    Надежные и масштабируемые пайплайны в OK

    Спикер расскажет о том, какие системы для управления пайплайнами написали в «Одноклассниках», и как (и почему) заменили на кластер Airflow, устойчивый к отказу дата-центра.

  • Смотреть запись

    Тип доклада: Доклад

    Автоматический тюнинг Spark-приложений

    Валерия расскажет про Hadoop-кластер, где запускаются сотни ежедневных и тысячи ежечасных Spark-расчётов. Все расчёты очень разные и со своим SLA. В такой ситуации тюнить силами инженеров нереально. Поэтому они построили и внедрили полностью автоматическую систему тюнинга, основанную на логах, которые пишет сам Spark. Она объяснит, как устроена их система тюнинга и что позволяет им постоянно подстраиваться под изменения.

     

  • Не записывалось

    Тип доклада: BOF-сессия от партнера

    Импортозамещение BI-решений. Все очень плохо?

    За последние годы бизнес стал более требовательным и щепетильным в вопросах подготовки отчетности.

    Раньше распространенным требованием бизнес-заказчиков был перенос презентаций в BI-платформу в том же виде, что и в Power Point. Но сейчас все чаще появляется запрос на интерактивность и добавление возможностей по глубокому анализу данных с помощью BI-решений.

  • Смотреть запись

    Тип доклада: Доклад

    Колонки и векторные инструкции

    Разберем основы работы колонок и векторизации. Рассмотрим, где можно еще ощутить мощь векторизации, и узнаем, что мешает ей эффективно работать.

  • Смотреть запись

    Тип доклада: Доклад

    Любовь и ненависть к Prefect 2.0 после Apache Airflow

    Спикер рассмотрит Prefect 2.0 и его основные концепты. Сравнит его с Apache Airflow, похвалит и поругает. Вы узнаете, для каких кейсов лучше всего подходит этот инструмент.

  • Смотреть запись

    Тип доклада: Доклад

    Разнообразие требований к Data Warehouse. Как говорить с заказчиком, чтобы ничего не пропустить

    Спикер рассмотрит разные группы требований к Data Warehouse и то, как их учесть в реализации. В результате вы получите список вопросов к заказчику, которые хорошо бы прояснить до того, как вы начнете строительство нового DWH. Для уже существующего DWH вы сможете изолировать проблемные группы запросов, для которых стоит выделить отдельные подсистемы.

    Доклад без привязки к определенной технологии. Будут примеры на Impala/Hive, Clickhouse, ScyllaDB/Cassandra, PostgreSQL.

  • Смотреть запись

    Тип доклада: Доклад от партнера

    Цифровое решение для анализа качества поступающего металлического лома

    История о том, как на предприятии внедрили цифровое решение, снижающее затраты на покупной лом за счет определения процента засора объективными средствами видеоаналитики для 100% входного сырья. 

  • Смотреть запись

    Тип доклада: Доклад

    100 миллиардов сообщений в Kafka: загрузил и забыл

    Apache Kafka — прекрасный инструмент для надежной передачи сообщений между сервисами, но выгрузить его содержимое для офлайн-аналитики оказалось не такой простой задачей. Особенно, когда речь идет о сотне миллиардов сообщений в день, каждый день. На помощь приходит Apache Spark, но, к сожалению, его возможностей недостаточно для надежной и полностью автоматизированной работы на действительно больших объемах данных. Спикер расскажет о том, как выгружать из Apache Kafka в HDFS 100 миллиардов сообщений в день и перестать думать об этом.

    Доклад будет интересен разработчикам в Big Data, использующим Kafka для передачи больших объемов данных в Hadoop.

  • Смотреть запись

    Тип доклада: Доклад

    Путь к модели данных для ежедневного апдейта 100 прошлых дней

    Рассказ про то, как выбирали модель данных для хранилища, в котором каждый день приходится обновлять последние 100 дней данных. Посмотрим на точечные замены блоков, подход таблиц с одним ключом, на Data Vault и пару других подходов и выберем из них победителя для этой задачи.

  • Смотреть запись

    Тип доклада: Доклад

    NiFi-скрипты как элемент Less Code ETL

    В NiFi есть множество трансформаций, которые не требуют кодирования. Но далеко не все можно сделать с помощью коробочных трансформаций. Разрабатывать на каждую уникальную трансформацию процессор, это интересный, но дорогой вариант. В NiFi можно использовать scripting и получить более гибкий инструмент трансформации данных. Бронислав расскажет, когда следует выбрать скрипт и как это сделать наиболее эффективно. Этот доклад для активных пользователей NiFi, а так же для тех кто рассматривает NiFi в качестве ETL-инструмента для своих задач.

  • Смотреть запись

    Тип доклада: Доклад

    Процессор метаданных для сбора и анализа данных

    Александр расскажет, что такое автоматический конвейер (пайплайн) и какие есть подходы к его конфигурированию. В частности, он разберет концепцию процессора метаданных, которая может решить часть этих проблем.

  • Смотреть запись

    Тип доклада: Доклад

    Как загрузить в каталог данных всё на свете и не умереть

    Мало создать удобный каталог данных, самая большая работа — это наполнить его метаданными, которые берутся из огромного количества разных источников.

    Иван расскажет, почему им пришлось перейти от pull-подхода наполнения каталога к push, про особенности технической реализации и проблемы, с которыми пришлось столкнуться.

    Доклад будет полезен тем, кто уже внедрил или думает о внедрении или разработке каталога данных.

  • Смотреть запись

    Тип доклада: Интервью

    Интервью с Максимом Стаценко и Татьяной Колмаковой, Яндекс

    Обсудим с Максимом и Татьяной дата-инжиниринг в Яндексе и другие темы. Присоединяйтесь!

  • Смотреть запись

    Тип доклада: Доклад от партнера

    Организация потоковой обработки данных для Big Data

    Спикер расскажет, как в МТС собрали инструмент для потоковой обработки 10 миллионов событий в секунду с помощью Scala (Java), Apache Spark Streaming и PostgreSQL. Основной задачей было сделать универсальный, мощный и надежный инструмент потоковой обработки данных. Универсальность заключается в настройке обработки данных с помощью конфигураций и DSL.

  • Смотреть запись

    Тип доклада: Игра

    Викторина «Наша игра»

    Пять разных тем и вопросы за 300 (еще за 100, 200, 400 и 500). Наша версия «Своей игры». Присоединяйтесь!

  • Смотреть запись

    Тип доклада: Доклад

    Как продуктовый дизайн влияет на разработку ETL-платформы

    Одно из ключевых отличий DWH в Тинькофф — разработка почти всех инструментов вместе с продуктовыми дизайнерами. Из доклада вы узнаете, зачем нужен дизайн в инструментах для разработчиков и аналитиков, почему мифы вокруг дизайнеров не дают вам развивать технический продукт в ногу со временем и как продуктовый дизайн повлиял на один из инструментов Тинькофф для Batch ETL — TEDI, призванным заменить SAS.

  • Смотреть запись

    Тип доклада: Доклад

    Восстановление распределенной базы данных после аварии

    Представьте, что вы редактировали документ, но по ошибке удалили его. Откат к Report3_release2FinalLast-Fixed!!!4.txt.bak.bak, сохраненному на флешке, и пара дополнений по памяти исправят проблему.

    А теперь представьте, что несколько человек редактировали документ в сети и сервер сгорел. Бэкап сервера и слаженная работа авторов документа решат проблему.

    И, наконец, представьте, что тысячи людей редактировали миллионы документов на сотнях серверов с асинхронной репликацией в запасной кластер, но ошибка в коде привела к потере каждого миллионного изменения в рамках каждого из кластеров. Есть ли решение у такой проблемы?

    Спикер расскажет, что делать, когда код-ревью, failover и сертификация не помогли избежать аварии распределенной базы данных.

  • Смотреть запись

    Тип доклада: Доклад

    Как построить data lineage. Обзор решений и опыт нашей команды

    О хорошем data lineage мечтают все. В докладе рассмотрим различные подходы к автоматическому построению, а также то, каким путем пошли в ETL-платформе Тинькофф.

  • Смотреть запись

    Тип доклада: Доклад

    Как мы пустили пользователей строить свой ETL

    SelfServiceETL — фреймворк, позволяющий пользователям КХД самостоятельно создавать и изменять ETL-процессы. В докладе пойдет речь про предпосылки и историю развития SSETL, про сам продукт и немного про архитектурный контекст. Особое внимание спикер уделит зайцам, которых убили, и граблям, на которые уже наступили или только собираются наступить.

  • Смотреть запись

    Тип доклада: Интервью от партнера

    Data Engineering в SM Lab

    Интервью с Александром Сальковым. Спикер расскажет об истории компании SM Lab и про сферу деятельности. Вы узнаете, откуда  в SM Lab появилась Big Data, какие классы задач решаются в области Big Data, на каких железках и технологиях Big Data живет.

    Александр покажет один день из жизни дата-инженера. Обсудим вызовы, с которыми в компании столкнулись при построении Big Data, а в заключении наметим вектор развития.

  • Смотреть запись

    Тип доклада: Доклад

    Что такое Data Mesh и примеры реализации

    В докладе рассмотрена методология Data Mesh в сравнении с другими подходами, проблематика построения классических команд и Data Pipelines.

    Вторая часть доклада посвящена прикладной реализации концепции с использованием подходов Data Infra as a Platform, DataOps и технологическому стеку, который может быть использован для построения архитектуры Data Mesh в компании.

  • Смотреть запись

    Тип доклада: Доклад

    Эволюция ETL-инструментов на примере отдельно взятой Big Data

    Спикеры расскажут, как менялись пользовательские подходы к организации и реализации ETL-процессов, и как вслед за ними менялись инструменты для лучшего ответа на изменившиеся требования и условия работы. Один из интересных моментов доклада — рассказ о том, как в команде стали отказываться от использования нестандартных собственных инструментов Hadoop в пользу более стандартного Spark, что к этому подвигло и к каким результатам привело. 

    Доклад будет интересен дата-инженерам, специалистам по ETL, дата-сайентистам и всем, кому важно расширить свой кругозор или узнать об опыте других.

  • Смотреть запись

    Тип доклада: Интервью

    Интервью с Александром Ермаковым

    Каверзные и простые, серьезные и ироничные, прямолинейные и возможно даже риторические вопросы Александру Ермакову зададут ведущие SmartData 2022. Присоединяйтесь к беседе и задавайте свои вопросы в чате!

  • Смотреть запись

    Тип доклада: Интервью

    SmartDataCoffee

    Новый формат совместно с дружественным подкастом DataCoffee. Уютный разговор про дата-инжиниринг, Data Governments и не только. Берите чашечку кофе, устраивайтесь поудобнее и присоединяйтесь!

  • Смотреть запись

    Тип доклада: Интервью

    Интервью с Денисом Ефаровым и Сергеем Михалевым, Одноклассники

    Поговорим с Андреем и Михаилом про дата-инжиниринг в «Одноклассниках» и обсудим другие темы. Присоединяйтесь!