斯坦福NLP在ICML 2026展示通过自动化执行器将LLM预训练与后训练转化为执行环境，利用执行反馈提升研究效率。两种方法：进化搜索在后训练任务中优于GRPO（69.4%对48.0%），并在预训练任务中找到的配方比nanoGPT更快（19.7分钟对35.9分钟），两者均在十轮搜索内完成；基于执行奖励的强化学习易发生模式崩溃，虽提升平均奖励但未提高上限。该工作为执行导向的自动化AI研究指明方向。

MeNews

2026-05-20 10:32:22

Генерация тезисов в процессе

AIMPACT сообщение, 15 мая (UTC+8), команда NLP Стэнфорд представила на конференции ICML 2026 новую работу по автоматизированным исследованиям ИИ, которая строит автоматизированный исполнитель, превращая предварительную и последующую тренировку LLM в исполнительную среду и используя обратную связь от исполнения для повышения эффективности исследований. В исследовании проанализированы два метода: эволюционный поиск обладает высокой эффективностью выборки, найденные в задачах после тренировки методы превосходят базовую модель GRPO (69,4% против 48,0%), а найденные в задачах предварительной тренировки рецепты превосходят базовую nanoGPT (19,7 минуты против 35,9 минут), оба за десять циклов поиска; в то время как обучение с усилением на основе наград за исполнение сталкивается с проблемой сбоя модели, хотя и повышает среднюю награду, но не увеличивает верхний предел. Эта работа задает направление для автоматизированных исследований ИИ, ориентированных на исполнение. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

11 Лайков

Награда
11
7
8
Поделиться

комментарий

Добавить комментарий

MintColdBrew

· 2ч назад

Работа ICML 2026 уже настолько сложная

Посмотреть ОригиналОтветить0

QuietRugAlarm

· 3ч назад

19 минут против 36 минут, nanoGPT был побежден

Посмотреть ОригиналОтветить0

Half-MeltedIceCreamPosition

· 3ч назад

Эволюционный поиск побеждает GRPO, этот прирост эффективности просто невероятен

Посмотреть ОригиналОтветить0

AirdropOnTheDune

· 3ч назад

Интегрированная среда для предобучения и дообучения — это попытка реализовать самосовершенствование ИИ?

Посмотреть ОригиналОтветить0

NodeUnderTheAurora

· 3ч назад

Проблема сбоя режима очень актуальна, взлом наград — давняя тема.

Посмотреть ОригиналОтветить0

SeaSaltMarketMakingNotes

· 3ч назад

Десять раундов поиска — и он сходится, эффективность использования образцов выше, чем я ожидал.

Посмотреть ОригиналОтветить0

YieldNotYell

· 3ч назад

Обратная связь по выполнению — это душа автоматизации

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
TradfiTradingChallenge
192.21K Популярность
#
30YearTreasuryYieldBreaks5%
363.4K Популярность
#
IsraelStrikesIranBTCPlunges
48.28K Популярность
#
#DailyPolymarketHotspot
1M Популярность
#
RWAMarketCapExceeds65Billion
8.75M Популярность

Закреплено

Карта сайта

Команда NLP Стэнфордского университета демонстрирует новые достижения в области автоматизированных исследований ИИ

Популярные темы

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Закреплено