ДокладДата: 23.09 / Начало: 00:00 – Конец: 00:00

LLM Ops: оптимизация инференса и ML-serving в реальном production-кластере

ML/LLMOps

Доклад посвящен практическому опыту оптимизации инференса и ML-serving на базе GPUStack в production-среде корпоративного AI Portal. Платформа обслуживает более 150 ежедневных активных пользователей (DaU), обрабатывая 25 000 запросов в день.

В каталоге 12 моделей (LLM, STT, TTS, Embedding, Vision), выдано 300 API-ключей, создано 50 баз знаний, подключено 12 репозиториев к AI Workflow.

Спикеры

Дмитрий Ибрагимов
Лемана Тех

Другие доклады по теме «ML/LLMOps»

Расписание

LLM Ops: оптимизация инференса и ML-serving в реальном production-кластере

Спикеры

Дмитрий Ибрагимов

Другие доклады по теме «ML/LLMOps»