NUS 團隊發布 GameWorld 基準，包含34款瀏覽器遊戲、170項任務，配有可驗證指標以實現客觀評估。測試兩類代理接口：直接鍵鼠指令的 computer-use 與在語義空間操作的通用多模態代理。對18種模型-接口組合的實證顯示，即便表現最好者也遠不及人類，且在實時延遲、上下文記憶敏感度和動作有效性等方面存在挑戰。相關論文與程式碼已在 HuggingFace、GitHub 公開。

ME News

2026-05-21 19:59:48

摘要生成中

ME News 消息，4 月 17 日（UTC+8），據動察 Beating 監測，新加坡國立大學（NUS）團隊發布 GameWorld，一個旨在標準化評估多模態大語言模型（MLLM）在視頻遊戲中作為通用代理能力的基準測試。該研究指出，儘管視頻遊戲提供了理想的閉環交互測試床，但現有評估常受限於操作接口不統一和人工啟發式驗證。 GameWorld 包含 34 款多樣的瀏覽器遊戲和 170 項任務，並為每個任務配備了基於遊戲底層狀態的可驗證指標，以實現客觀的結果評估。研究團隊測試了兩種代理接口：一是直接輸出鍵鼠指令的「計算機使用（computer-use）」代理，二是通過語義解析在語義動作空間中操作的通用多模態代理。在對 18 種「模型-接口」組合進行的大規模測試中，結果顯示即便當前表現最好的 AI 代理，其遊戲能力也遠未達到人類水平。研究進一步暴露了遊戲代理在實時交互延遲、上下文記憶敏感度以及動作有效性等方面的嚴峻挑戰。相關論文及項目代碼已在 Hugging Face 和 GitHub 公開。（來源：BlockBeats）

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

13人按讚了這條動態

打賞
13
5
7
分享

回覆

請輸入回覆內容

FrontRun Therapy

· 3小時前

實時延遲和上下文記憶這兩個坑，估計半年內都難填平

查看原文回復0

GateUser-c4e25c95

· 3小時前

鍵鼠指令那路子太暴力了，通用多模態才是正解

查看原文回復0

Staking Daydreamer

· 3小時前

動作有效性低說明規劃層還是弱，感知-決策鏈路沒打通

查看原文回復0

Exit Liquidity Poet

· 3小時前

公開程式碼好評，復現門檻降低了，社群能一起迭代

查看原文回復0

雨夜撤销权限

· 3小時前

瀏覽器環境比想像中困難，DOM變化迅速、狀態隱式，agent容易懵

查看原文回復0

熱門話題
查看更多
#
TradFi交易分享挑戰
23.62萬熱度
#
灰度購入超51萬HYPE並質押
892萬熱度
#
Polymarket每日熱點
101.8萬熱度
#
SpaceX正式提交IPO申請
75.18萬熱度
#
Gate廣場披薩節
171.6萬熱度

NUS團隊發布GameWorld基準，在34款瀏覽器遊戲中評估多模態AI代理

熱門話題

TradFi交易分享挑戰

灰度購入超51萬HYPE並質押

Polymarket每日熱點

SpaceX正式提交IPO申請

Gate廣場披薩節

已置頂