自动化执行器+执行反馈,AI自己研究AI的闭环快成了

ME News
斯坦福NLP团队展示自动化AI研究新进展
斯坦福NLP在ICML 2026展示通过自动化执行器将LLM预训练与后训练转化为执行环境,利用执行反馈提升研究效率。两种方法:进化搜索在后训练任务中优于GRPO(69.4%对48.0%),并在预训练任务中找到的配方比nanoGPT更快(19.7分钟对35.9分钟),两者均在十轮搜索内完成;基于执行奖励的强化学习易发生模式崩溃,虽提升平均奖励但未提高上限。该工作为执行导向的自动化AI研究指明方向。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论