NUS團隊發布GameWorld基準,在34款瀏覽器遊戲中評估多模態AI代理

robot
摘要生成中
ME News 消息,4 月 17 日(UTC+8),據 動察 Beating 監測,新加坡國立大學(NUS)團隊發布 GameWorld,一個旨在標準化評估多模態大語言模型(MLLM)在視頻遊戲中作為通用代理能力的基準測試。該研究指出,儘管視頻遊戲提供了理想的閉環交互測試床,但現有評估常受限於操作接口不統一和人工啟發式驗證。 GameWorld 包含 34 款多樣的瀏覽器遊戲和 170 項任務,並為每個任務配備了基於遊戲底層狀態的可驗證指標,以實現客觀的結果評估。研究團隊測試了兩種代理接口:一是直接輸出鍵鼠指令的「計算機使用(computer-use)」代理,二是通過語義解析在語義動作空間中操作的通用多模態代理。 在對 18 種「模型-接口」組合進行的大規模測試中,結果顯示即便當前表現最好的 AI 代理,其遊戲能力也遠未達到人類水平。研究進一步暴露了遊戲代理在實時交互延遲、上下文記憶敏感度以及動作有效性等方面的嚴峻挑戰。相關論文及項目代碼已在 Hugging Face 和 GitHub 公開。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 5
  • 7
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
FrontRun Therapy
· 3小時前
實時延遲和上下文記憶這兩個坑,估計半年內都難填平
查看原文回復0
GateUser-c4e25c95
· 3小時前
鍵鼠指令那路子太暴力了,通用多模態才是正解
查看原文回復0
Staking Daydreamer
· 3小時前
動作有效性低說明規劃層還是弱,感知-決策鏈路沒打通
查看原文回復0
Exit Liquidity Poet
· 3小時前
公開程式碼好評,復現門檻降低了,社群能一起迭代
查看原文回復0
雨夜撤销权限
· 3小時前
瀏覽器環境比想像中困難,DOM變化迅速、狀態隱式,agent容易懵
查看原文回復0