
Владимир Ермаков
VK / Одноклассники
Мы ежедневно выгружаем из Greenplum в S3 сотни терабайтов. Данные в таблицах часто обновляются задним числом, поэтому обычная инкрементальная выгрузка не спасает, что делает задачу нетривиальной.
В процессе ее решения мы:
1. Создали распределенную систему по выгрузке данных с сегментов GP в S3 и преобразования данных в Iceberg, попутно опробовав Arrow Flight и отказавшись от него.
2. С помощью Spark и MERGE INTO обновляем исторические записи и по дороге столкнулись с проблемами перформанса и особенностями реализации Apache Iceberg в Spark.
О том, какие подводные камни мы собрали и что в итоге получилось, вы сможете послушать в нашем докладе.
VK / Одноклассники
Т-Банк