Обфускация баз данных

День 1 /  / Зал 3  /  Для практикующих инженеров

В вашей компании есть данные, представляющие коммерческую ценность. Такие данные нельзя просто так никому давать. Но есть потребность в публикации изменённых или искусственных датасетов, максимально похожих на настоящие данные. Такие датасеты могут быть использованы для тестирования производительности, отладки алгоритмов и машинного обучения. Необходимое количество статистических свойств данных должно быть сохранено, но в то же время данные должны быть анонимизированы.

Для разработки ClickHouse нужны датасеты, приближающие данные Яндекс.Метрики. Алексей расскажет о четырех разных подходах к решению задачи, которые они попробовали, о том, какой подход в итоге победил и как вы можете им воспользоваться.