Денис Ефаров
Компания: Одноклассники
Apache Kafka — прекрасный инструмент для надежной передачи сообщений между сервисами, но выгрузить его содержимое для офлайн-аналитики оказалось не такой простой задачей. Особенно, когда речь идет о сотне миллиардов сообщений в день, каждый день. На помощь приходит Apache Spark, но, к сожалению, его возможностей недостаточно для надежной и полностью автоматизированной работы на действительно больших объемах данных. Спикер расскажет о том, как выгружать из Apache Kafka в HDFS 100 миллиардов сообщений в день и перестать думать об этом.
Доклад будет интересен разработчикам в Big Data, использующим Kafka для передачи больших объемов данных в Hadoop.
Компания: Одноклассники
Компания: Одноклассники