NUS這波GameWorld有意思,遊戲成了AI的試煉場

查看原文
ME News
NUS團隊發布GameWorld基準,在34款瀏覽器遊戲中評估多模態AI代理
ME News 消息,4 月 17 日(UTC+8),據 動察 Beating 監測,新加坡國立大學(NUS)團隊發布 GameWorld,一個旨在標準化評估多模態大語言模型(MLLM)在視頻遊戲中作為通用代理能力的基準測試。該研究指出,儘管視頻遊戲提供了理想的閉環交互測試床,但現有評估常受限於操作接口不統一和人工啟發式驗證。 GameWorld 包含 34 款多樣的瀏覽器遊戲和 170 項任務,並為每個任務配備了基於遊戲底層狀態的可驗證指標,以實現客觀的結果評估。研究團隊測試了兩種代理接口:一是直接輸出鍵鼠指令的「計算機使用(computer-use)」代理,二是通過語義解析在語義動作空間中
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆