NUS团队发布GameWorld基准，在34款浏览器游戏中评估多模态AI代理

ME News · 2026-05-21T11:56:03+00:00

NUS 团队发布 GameWorld 基准，包含34款浏览器游戏、170项任务，配有可验证指标以实现客观评估。测试两类代理接口：直接键鼠指令的 computer-use 与在语义空间操作的通用多模态代理。对18种模型-接口组合的实证显示，即便表现最好者也远不及人类，且在实时延迟、上下文记忆敏感度和动作有效性等方面存在挑战。相关论文与代码已在 HuggingFace、GitHub 公开。

ME News

2026-05-21 11:56:03

摘要生成中

ME News 消息，4 月 17 日（UTC+8），据动察 Beating 监测，新加坡国立大学（NUS）团队发布 GameWorld，一个旨在标准化评估多模态大语言模型（MLLM）在视频游戏中作为通用代理能力的基准测试。该研究指出，尽管视频游戏提供了理想的闭环交互测试床，但现有评估常受限于操作接口不统一和人工启发式验证。 GameWorld 包含 34 款多样的浏览器游戏和 170 项任务，并为每个任务配备了基于游戏底层状态的可验证指标，以实现客观的结果评估。研究团队测试了两种代理接口：一是直接输出键鼠指令的「计算机使用（computer-use）」代理，二是通过语义解析在语义动作空间中操作的通用多模态代理。在对 18 种「模型-接口」组合进行的大规模测试中，结果显示即便当前表现最好的 AI 代理，其游戏能力也远未达到人类水平。研究进一步暴露了游戏代理在实时交互延迟、上下文记忆敏感度以及动作有效性等方面的严峻挑战。相关论文及项目代码已在 Hugging Face 和 GitHub 公开。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

11人点赞了这条动态

赞赏
11
10
7
分享

请输入评论内容

FeeSwitch Whisperer

· 2小时前

这个benchmark出来，游戏agent赛道终于要卷起来了，坐等各大厂跟进

海盐气泡水

· 11小时前

可验证指标是关键，之前太多主观评测吵来吵去没个准

雾里捡空投

· 12小时前

浏览器游戏这个场景选得妙，既有视觉挑战又有交互复杂度，还不用折腾环境配置

复古钥匙扣

· 12小时前

HuggingFace和GitHub都开源了，赞，复现门槛降低才能推动社区跟进

清算雨衣

· 12小时前

computer-use vs 通用多模态这个对比设计挺有意思，想看看具体哪些场景语义空间反而吃亏

潮汐贝壳倒影

· 12小时前

18种模型-接口组合，消融实验做得够细，NUS团队做事风格我喜欢

猫头鹰盯授权

· 12小时前

动作有效性这个指标设计得好，很多benchmark只关心最终得分不管过程是否优雅

纸雕章鱼看盘

· 12小时前

表现最好也远不及人类，看来游戏agent还有很长的路要走，不是堆参数能解决的

0xLateDinner

· 12小时前

实时延迟和上下文记忆敏感度，这俩痛点太真实了，玩过快节奏游戏的都懂

像素化的小鱼干

· 12小时前

终于有团队认真做浏览器游戏的agent benchmark了，34款游戏170个任务，这覆盖度可以

热门话题
查看更多
#
TradFi交易分享挑战
23.81万热度
#
灰度购入超51万HYPE并质押
892万热度
#
Polymarket每日热点
102.29万热度
#
SpaceX正式提交IPO申请
75.26万热度
#
Gate广场披萨节
171.75万热度

NUS团队发布GameWorld基准，在34款浏览器游戏中评估多模态AI代理

热门话题

TradFi交易分享挑战

灰度购入超51万HYPE并质押

Polymarket每日热点

SpaceX正式提交IPO申请

Gate广场披萨节

置顶