Доклад

LLM под нагрузкой: как измерять производительность self-hosted моделей

В Циан мы используем LLM в production-сценариях и развиваем self-hosted inference на базе vLLM Production Stack. В таких системах недостаточно сказать, что модель выдает N токенов в секунду: эта цифра часто не объясняет, как сервис будет вести себя под реальной нагрузкой, почему пользователь долго ждет первый токен, что происходит при длинном контексте и сколько GPU-памяти потребуется при увеличении нагрузки.

В докладе я разберу практический подход к измерению производительности self-hosted LLM. Покажу, какие метрики действительно важны для inference-сервиса. Отдельно обсудим, почему prefill и decode нагружают систему по-разному, как KV cache влияет на latency и VRAM, почему context length может стать главным ограничением и почему если модель поместилась на GPU, то это не означает, что она выдержит production-нагрузку.

Технологически доклад будет опираться на vLLM, vLLM bench serve, vLLM Production Stack, Kubernetes-подход к развертыванию inference-сервисов, GPU monitoring и сбор метрик.

Основная проблема, которую решает доклад: как перейти от разрозненных tokens/sec-замеров к воспроизводимому benchmark-процессу, который помогает принимать решения, как выбирать модель, ее параметры, GPU и обеспечивать SLO.

Доклад будет полезен ML-инженерам, MLOps-инженерам и техническим лидам, которые внедряют LLM в продукты, запускают модели на собственной инфраструктуре или отвечают за latency, стоимость и стабильность LLM-сервисов.

Спикеры

Доклады