Hadoop 3: Erasure coding catastrophe

Сложность -

Представьте себе картину: ваши HDFS кластера близятся по объему к 100 Pb, вы каждый год заказываете машин на десяток петабайт, заводите их, месяцами балансируете и повторяете эту процедуру раз за разом. Затем выходит Hadoop 3, который обещает экономию места в два раза при тех же гарантиях — хочется немедленно применить это. Но вы опытны, не бросаетесь в latest сразу, дожидаетесь версии 3.1+, тестируете, последовательно выкатываете, еще раз тестируете. Но через полгода начинаете наблюдать за тем, как ваши данные превращаются в тыкву и далеко не только в полночь. Представляете себе исчезновение 100 Pb данных? Это очень больно!

Команда прошла практически по краю этой пропасти и многое узнала. Этот доклад о находках и ошибках, новом опыте при работе с Hadoop и о том, как можно избежать подобных ситуаций.

Аудитория: инженеры и разработчики в BigData, использующие экосистему Hadoop или планирующие на нее переходить.

#hadoop
#storage

Спикеры

Денис Ефаров
Одноклассники

Приглашенные эксперты

Сергей Михалев
Одноклассники

Расписание

Hadoop 3: Erasure coding catastrophe

Спикеры

Денис Ефаров

Приглашенные эксперты

Сергей Михалев