Доклад

LLM Ops: оптимизация инференса и ML-serving в реальном production-кластере

Доклад посвящен практическому опыту оптимизации инференса и ML-serving на базе GPUStack в production-среде корпоративного AI Portal. Платформа обслуживает более 150 ежедневных активных пользователей (DaU), обрабатывая 25 000 запросов в день.

В каталоге 12 моделей (LLM, STT, TTS, Embedding, Vision), выдано 300 API-ключей, создано 50 баз знаний, подключено 12 репозиториев к AI Workflow.

Спикеры

Доклады