NUS 团队发布 GameWorld 基准，包含34款浏览器游戏、170项任务，配有可验证指标以实现客观评估。测试两类代理接口：直接键鼠指令的 computer-use 与在语义空间操作的通用多模态代理。对18种模型-接口组合的实证显示，即便表现最好者也远不及人类，且在实时延迟、上下文记忆敏感度和动作有效性等方面存在挑战。相关论文与代码已在 HuggingFace、GitHub 公开。

ME News

2026-05-21 19:59:48

摘要生成中

ME News 消息，4 月 17 日（UTC+8），据动察 Beating 监测，新加坡国立大学（NUS）团队发布 GameWorld，一个旨在标准化评估多模态大语言模型（MLLM）在视频游戏中作为通用代理能力的基准测试。该研究指出，尽管视频游戏提供了理想的闭环交互测试床，但现有评估常受限于操作接口不统一和人工启发式验证。 GameWorld 包含 34 款多样的浏览器游戏和 170 项任务，并为每个任务配备了基于游戏底层状态的可验证指标，以实现客观的结果评估。研究团队测试了两种代理接口：一是直接输出键鼠指令的「计算机使用（computer-use）」代理，二是通过语义解析在语义动作空间中操作的通用多模态代理。在对 18 种「模型-接口」组合进行的大规模测试中，结果显示即便当前表现最好的 AI 代理，其游戏能力也远未达到人类水平。研究进一步暴露了游戏代理在实时交互延迟、上下文记忆敏感度以及动作有效性等方面的严峻挑战。相关论文及项目代码已在 Hugging Face 和 GitHub 公开。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

13人点赞了这条动态

赞赏
13
5
7
分享

请输入评论内容

FrontRun Therapy

· 5小时前

实时延迟和上下文记忆这俩坑，估计半年内都难填平

GateUser-c4e25c95

· 5小时前

键鼠指令那路子太暴力了，通用多模态才是正解

Staking Daydreamer

· 5小时前

动作有效性低说明规划层还是弱，感知-决策链路没打通

Exit Liquidity Poet

· 5小时前

公开代码好评，复现门槛降了，社区能一起迭代

雨夜撤销权限

· 5小时前

浏览器环境比想象中难，DOM变化快、状态隐式，agent容易懵

热门话题
查看更多
#
TradFi交易分享挑战
23.97万热度
#
HYPE再度领涨
1633.23万热度
#
Polymarket每日热点
102.34万热度
#
特朗普称美伊正敲定协议细节
2108.89万热度
#
Gate广场披萨节
171.78万热度

NUS团队发布GameWorld基准，在34款浏览器游戏中评估多模态AI代理

热门话题

TradFi交易分享挑战

HYPE再度领涨

Polymarket每日热点

特朗普称美伊正敲定协议细节

Gate广场披萨节

置顶