Команда NLP Стэнфордского университета демонстрирует новые достижения в области автоматизированных исследований ИИ

robot
Генерация тезисов в процессе
AIMPACT сообщение, 15 мая (UTC+8), команда NLP Стэнфорд представила на конференции ICML 2026 новую работу по автоматизированным исследованиям ИИ, которая строит автоматизированный исполнитель, превращая предварительную и последующую тренировку LLM в исполнительную среду и используя обратную связь от исполнения для повышения эффективности исследований. В исследовании проанализированы два метода: эволюционный поиск обладает высокой эффективностью выборки, найденные в задачах после тренировки методы превосходят базовую модель GRPO (69,4% против 48,0%), а найденные в задачах предварительной тренировки рецепты превосходят базовую nanoGPT (19,7 минуты против 35,9 минут), оба за десять циклов поиска; в то время как обучение с усилением на основе наград за исполнение сталкивается с проблемой сбоя модели, хотя и повышает среднюю награду, но не увеличивает верхний предел. Эта работа задает направление для автоматизированных исследований ИИ, ориентированных на исполнение. (Источник: InFoQ)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • 8
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
MintColdBrew
· 2ч назад
Работа ICML 2026 уже настолько сложная
Посмотреть ОригиналОтветить0
QuietRugAlarm
· 3ч назад
19 минут против 36 минут, nanoGPT был побежден
Посмотреть ОригиналОтветить0
Half-MeltedIceCreamPosition
· 3ч назад
Эволюционный поиск побеждает GRPO, этот прирост эффективности просто невероятен
Посмотреть ОригиналОтветить0
AirdropOnTheDune
· 3ч назад
Интегрированная среда для предобучения и дообучения — это попытка реализовать самосовершенствование ИИ?
Посмотреть ОригиналОтветить0
NodeUnderTheAurora
· 3ч назад
Проблема сбоя режима очень актуальна, взлом наград — давняя тема.
Посмотреть ОригиналОтветить0
SeaSaltMarketMakingNotes
· 3ч назад
Десять раундов поиска — и он сходится, эффективность использования образцов выше, чем я ожидал.
Посмотреть ОригиналОтветить0
YieldNotYell
· 3ч назад
Обратная связь по выполнению — это душа автоматизации
Посмотреть ОригиналОтветить0
  • Закреплено