Доклад

От бакета в S3 к Data Lakehouse: эволюция платформы данных в гонке за автономией

На русском языке

Представьте: более 10 ПБ сенсорных данных в хаотичном S3-бакете. Муки поиска, ручное управление ресурсами, Data Lake, который тонет под нагрузкой. Наш прошлый подход — построить горизонтально масштабируемую систему обработки данных с беспилотного транспортного средства — не выдержал взрывного роста данных и аппетитов ML. В докладе коснемся следующих тем:

  • Как Data Lakehouse (не хайп, а суровая необходимость!) стал нашим спасательным кругом: обеспечил безболезненную миграцию при непрерывном потоке более 150 ТБ в день.
  • Наблюдаемость для неструктурированных данных — наконец-то видим, что где лежит!
  • Экономия ресурсов: замена Spark на связку pyarrow + Polars там, где это реально режет затраты и время.

Вы узнаете:

  • реальные пределы опенсорса на хранилищах в десятки петабайтов;
  • рабочие подходы для автономных систем;
  • как избежать наших ошибок за 4 года борьбы.
Расписание