Доклад

Как мы строим систему распределенного трейсинга, в которой можно терять данные

  • На русском языке
Презентация pdf

Зачастую к системам обработки и доставки данных предъявляются строгие требования по надежности: все данные должны быть доставлены.

В Авито мы строим систему сбора логов и распределенного трейсинга, которая обрабатывает более 15 миллионов событий в секунду от более 2 тысяч сервисов, и мы можем терять данные!

Рассмотрим архитектуру нашей системы. Расскажу про уловки, которыми мы можем пользоваться из-за отсутствия строгих гарантий. Как откинуть данные, если мы не хотим хранить все? И как понять, какие данные нужны? Как мы выстраиваем передачу данных в условиях отказа узлов и дата-центров? Сконцентрируемся на архитектуре этой системы и ее эволюции, но домен сбора трейсинга и логов тоже затронем.

Технологии: пайплайны обработки данных на OpenTelemetry, всеми любимые Kafka и ClickHouse (плюс их синергия) и вероятностные потоковые алгоритмы.

Спикеры

Приглашенные эксперты

Расписание