computer-use 與 語義代理,兩條技術路線正面剛,數據說話

查看原文
ME News
NUS團隊發布GameWorld基準,在34款瀏覽器遊戲中評估多模態AI代理
新加坡国立大学团队发布了 GameWorld 基准,包括34款浏览器游戏、170项任务,配备可验证指标以实现客观评估。测试两类代理接口:直接键鼠指令的 computer-use 和在语义空间操作的通用多模态代理。对18种模型-接口组合的实证显示,即使表现最好的也远不及人类,且在实时延迟、上下文记忆敏感度和动作有效性等方面存在挑战。相关论文与代码已在 HuggingFace、GitHub 公开。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆