语义动作空间vs直接键鼠控制,两种接口对比想看看数据

ME News
NUS团队发布GameWorld基准,在34款浏览器游戏中评估多模态AI代理
ME News 消息,4 月 17 日(UTC+8),据 动察 Beating 监测,新加坡国立大学(NUS)团队发布 GameWorld,一个旨在标准化评估多模态大语言模型(MLLM)在视频游戏中作为通用代理能力的基准测试。该研究指出,尽管视频游戏提供了理想的闭环交互测试床,但现有评估常受限于操作接口不统一和人工启发式验证。 GameWorld 包含 34 款多样的浏览器游戏和 170 项任务,并为每个任务配备了基于游戏底层状态的可验证指标,以实现客观的结果评估。研究团队测试了两种代理接口:一是直接输出键鼠指令的「计算机使用(computer-use)」代理,二是通过语义解析在语义动作空间中
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论