Представьте: более 10 ПБ сенсорных данных в хаотичном S3-бакете. Муки поиска, ручное управление ресурсами, Data Lake, который тонет под нагрузкой. Наш прошлый подход — построить горизонтально масштабируемую систему обработки данных с беспилотного транспортного средства — не выдержал взрывного роста данных и аппетитов ML. В докладе коснемся следующих тем:
- Как Data Lakehouse (не хайп, а суровая необходимость!) стал нашим спасательным кругом: обеспечил безболезненную миграцию при непрерывном потоке более 150 ТБ в день.
- Наблюдаемость для неструктурированных данных — наконец-то видим, что где лежит!
- Экономия ресурсов: замена Spark на связку pyarrow + Polars там, где это реально режет затраты и время.
Вы узнаете:
- реальные пределы опенсорса на хранилищах в десятки петабайтов;
- рабочие подходы для автономных систем;
- как избежать наших ошибок за 4 года борьбы.