Если у вас есть билет, авторизуйтесь для просмотра видео

Доклад

Дата: 14.09 / Начало: 00:00 – Конец: 00:00

Как обрабатывать данные с помощью Spark в облаке

На русском языкеСложность -

Презентация pdf

Многие компании предпочитают выстраивать работу с большими данными на базе Spark, однако в последнее время выбор end-to-end решений, предоставляющих возможность работы на масштабируемых Spark-кластерах в России, оказался ограниченным. Yandex Cloud предоставляет стек технологий, которые закрывают большую часть необходимой функциональности и позволяют параллельно обрабатывать данные с помощью Spark.

Из доклада вы узнаете:

Как можно выстроить пайплайн обработки данных с помощью сервисов облака (DataProc и DataSphere), настроить взаимодействие со Spark-кластером через Jupyter-ноутбуки и почему удобно делать это в managed-сервисах.
Как можно научить систему поднимать кластер под вас — именно тогда, когда он нужен, и экономить на этом.
С какими сложностями сталкиваются компании при миграции, и какие пути решений они находят.
Какие особенности есть у облачных сервисов.
К чему надо быть готовым и какие могут понадобиться доработки.

Отдельный акцент будет сделан на взаимодействии инструментов для ML-разработки и кластера Spark.

Целевая аудитория: дата-инженеры, дата-сайентисты, аналитики.

#spark
#cloud
#real_life

Спикеры

Дмитрий Рыбалко
Yandex Cloud
Максим Зиналь
Yandex Cloud

Другие доклады по теме «DataOps»
- Смотреть запись
  Hadoop в Облаке — это ОК
  Михаил Марюфич
  Одноклассники
  Зал 1На русском языкеСложность -
- Смотреть запись
  От сырого кликстрима к чистым датасетам, или История развития Feature Storage в Lamoda
  Михаил Нестеров
  Lamoda Tech
  Дана Злочевская
  Lamoda Tech
  На русском языкеСложность -
- Смотреть запись
  Как мы переезжали с PostgreSQL на Data Lake в AWS
  Никита Зеленский
  Whoosh
  Константин Малыхин
  Whoosh
  Павел Сивохин
  Whoosh
  На русском языкеСложность -
- Смотреть запись
  Развитие инструмента BI-аналитики, DataOps.BI, на основе open source-решения Apache Superset
  Павел Шестаков
  МТС Digital
  Зал 2На русском языкеСложность -
- Смотреть запись
  Путь Model Serving: от Flask к своей платформе
  Алина Кочева
  Positive Technologies
  Зал 3На русском языкеСложность -
Другие доклады по теме «Architecture of Data Platforms»
- Смотреть запись
  Примеры реальных аналитических решений и дата-команд в западных компаниях
  Дмитрий Аношин
  Surfalytics
  На русском языкеСложность -
- Смотреть запись
  Методы обезличивания данных
  Алексей Даньшин
  Neoflex
  Зал 2На русском языкеСложность -
- Смотреть запись
  Streaming Data Integration — ETL-инструмент для создания near realtime-процессов
  Василий Мельник
  GlowByte
  Зал 3На русском языкеСложность -
- Смотреть запись
  Моделирование потоков событий в эволюционирующем окружении
  Николай Голов
  ManyChat
  На русском языкеСложность -
- Смотреть запись
  Что делать, если DWH растет слишком быстро
  Александр Филатов
  Авито
  На русском языкеСложность -
- Смотреть запись
  Платформа как продукт: разработать и внедрить сложное технологическое решение внутри компании
  Максим Бартенев
  МТС Digital
  Дмитрий Бодин
  МТС Digital
  Наджим Мохаммад
  МТС Digital
  На русском языкеСложность -
- Смотреть запись
  Как навести порядок в логировании продуктовых событий
  Алексей Балехов
  Окко
  На русском языкеСложность -
- Смотреть запись
  ML System Design Interview
  Павел Филонов
  Независимый консультант
  Аркадий Василенко
  Одноклассники
  На русском языкеСложность -
- Смотреть запись
  Создание группы сервисов по анализу космических снимков с помощью машинного обучения
  Сергей Космос
  SR Data
  Зал 1На русском языкеСложность -
- Смотреть запись
  Платформа управления данными вокруг YTsaurus
  Владимир Верстов
  Яндекс Go
  Зал 2На русском языкеСложность -
- Смотреть запись
  Я изменю ваш взгляд на хранилище данных за 30 минут
  Максим Стаценко
  Яндекс
  Зал 1На русском языкеСложность -
- Смотреть запись
  Построение катастрофоустойчивых хранилищ данных
  Александр Тарасов
  Arenadata
  Зал 2На русском языке

Расписание