看了眼结果,最好的模型离人类还差一大截,冷静了

ME News
NUS团队发布GameWorld基准,在34款浏览器游戏中评估多模态AI代理
NUS 团队发布 GameWorld 基准,包含34款浏览器游戏、170项任务,配有可验证指标以实现客观评估。测试两类代理接口:直接键鼠指令的 computer-use 与在语义空间操作的通用多模态代理。对18种模型-接口组合的实证显示,即便表现最好者也远不及人类,且在实时延迟、上下文记忆敏感度和动作有效性等方面存在挑战。相关论文与代码已在 HuggingFace、GitHub 公开。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论