Доклад

GP2S3 по-взрослому

На русском языке

Мы ежедневно выгружаем из Greenplum в S3 сотни терабайтов. Данные в таблицах часто обновляются задним числом, поэтому обычная инкрементальная выгрузка не спасает, что делает задачу нетривиальной.

В процессе ее решения мы:

1. Создали распределенную систему по выгрузке данных с сегментов GP в S3 и преобразования данных в Iceberg, попутно опробовав Arrow Flight и отказавшись от него.

2. С помощью Spark и MERGE INTO обновляем исторические записи и по дороге столкнулись с проблемами перформанса и особенностями реализации Apache Iceberg в Spark.

О том, какие подводные камни мы собрали и что в итоге получилось, вы сможете послушать в нашем докладе.

Спикеры

Расписание