Как создать эффективные сервисы инференса нейросетей в масштабах десятков тысяч ядер и сотен GPU для десятка заказчиков.
Доклад ориентирован на тех, кто:
- занимается MLOps, ML Inference;
- интересуется, как выглядят сервисы инференса в Яндекс Рекламе;
- строил большие системы из сервисов, которые упираются в CPU и mem;
- любит разрабатывать свои сервисы на C++ и вкладываться в эффективность и оптимизации.