NUS团队发布GameWorld基准,在34款浏览器游戏中评估多模态AI代理

robot
摘要生成中
ME News 消息,4 月 17 日(UTC+8),据 动察 Beating 监测,新加坡国立大学(NUS)团队发布 GameWorld,一个旨在标准化评估多模态大语言模型(MLLM)在视频游戏中作为通用代理能力的基准测试。该研究指出,尽管视频游戏提供了理想的闭环交互测试床,但现有评估常受限于操作接口不统一和人工启发式验证。 GameWorld 包含 34 款多样的浏览器游戏和 170 项任务,并为每个任务配备了基于游戏底层状态的可验证指标,以实现客观的结果评估。研究团队测试了两种代理接口:一是直接输出键鼠指令的「计算机使用(computer-use)」代理,二是通过语义解析在语义动作空间中操作的通用多模态代理。 在对 18 种「模型-接口」组合进行的大规模测试中,结果显示即便当前表现最好的 AI 代理,其游戏能力也远未达到人类水平。研究进一步暴露了游戏代理在实时交互延迟、上下文记忆敏感度以及动作有效性等方面的严峻挑战。相关论文及项目代码已在 Hugging Face 和 GitHub 公开。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 10
  • 7
  • 分享
评论
请输入评论内容
请输入评论内容
FeeSwitch Whisperer
· 2小时前
这个benchmark出来,游戏agent赛道终于要卷起来了,坐等各大厂跟进
回复0
海盐气泡水
· 11小时前
可验证指标是关键,之前太多主观评测吵来吵去没个准
回复0
雾里捡空投
· 12小时前
浏览器游戏这个场景选得妙,既有视觉挑战又有交互复杂度,还不用折腾环境配置
回复0
复古钥匙扣
· 12小时前
HuggingFace和GitHub都开源了,赞,复现门槛降低才能推动社区跟进
回复0
清算雨衣
· 12小时前
computer-use vs 通用多模态这个对比设计挺有意思,想看看具体哪些场景语义空间反而吃亏
回复0
潮汐贝壳倒影
· 12小时前
18种模型-接口组合,消融实验做得够细,NUS团队做事风格我喜欢
回复0
猫头鹰盯授权
· 12小时前
动作有效性这个指标设计得好,很多benchmark只关心最终得分不管过程是否优雅
回复0
纸雕章鱼看盘
· 12小时前
表现最好也远不及人类,看来游戏agent还有很长的路要走,不是堆参数能解决的
回复0
0xLateDinner
· 12小时前
实时延迟和上下文记忆敏感度,这俩痛点太真实了,玩过快节奏游戏的都懂
回复0
像素化的小鱼干
· 12小时前
终于有团队认真做浏览器游戏的agent benchmark了,34款游戏170个任务,这覆盖度可以
回复0
查看更多