CI/CD для Ml-моделей и датасетов

RU / День 2 / 12:30 / Зал 3

В индустрии многим знакома ситуация, когда вы быстро задеплоили модель, сделанную DS на коленке. А через месяц, когда её нужно переобучить на новых данных или добавить новый признак, оказывается, что DS по каким-то странным причинам не может этого сделать (потерял код или стер данные, на которых создавал модель).

Вывод модели в продакшн — это не только её упаковка в условный контейнер, но и фиксация процесса ее обучения, и дальнейший мониторинг ее работы. Подробное описание того, как модель была получена, позволяет избежать потерь знаний и результатов экспериментов.

В ОК построили процесс, в котором:

  • все параметры обучения, зависимости и артефакты фиксируются в git;
  • модели обучаются автоматически в контролируемом окружении;
  • модели проходят ревью и попадают в мастер;
  • из мастера улетают в продакшен.

Михаил в этом докладе расскажет:

  • о процессе и используемых инструментах;
  • как организовали версионируемое хранилище дата-сетов на dvc;
  • как организовали выкатки через репозиторий;
  • путь модельки от поставленной задачи в JIRA до прода и обратно;
  • как организовали автоматическое переобучение (не теряя воспроизводимости и возможности отката).

Михаил Марюфич
Mail.Ru Group

Machine Learning Engineer в Mail.Ru Group, специализируется на Deep Learning. Занимается машинным обучением более 4 лет, решает задачи E2E, от формулировки проблемы до выкатки в промышленную эксплуатацию и дальнейшей поддержки системы. В профессиональной деятельности превыше всего ценит воспроизводимость результатов и хорошие процессы разработки.

Место проведения