Валерия Дымбицкая
Upgini
Последнее время стало модным считать, что ML-агенты по умолчанию превосходят классические AutoML-пайплайны. На практике это далеко не так: протокол сравнения, бюджет времени/компьюта, воспроизводимость и тип задач сильно определяют успешность и экономику эксперимента. MLE-Bench — набор Kaggle-соревнований для оценки ML-агентов с собственными скриптами подготовки train/test и grading, де-факто — стандарт для оценки ML агентов.
Мы проверили классические AutoML-инструменты и agentic AutoML на табличных задачах из MLE-Bench и готовы поделиться своим опытом: как добиться «честного» сравнения, в каких случаях возникает эффект «ложной победы» и что не так с самим MLE-Bench.
Я разберу слагаемые успеха и провала и дам практический чек-лист, по которому вы можете быстро решить: «здесь нужен агент» или «здесь достаточно классического AutoML» для генерации baseline-модели.
Upgini