NUS チームは GameWorld ベンチマークを発表し、34のブラウザゲームと170のタスクを含み、客観的評価を可能にする検証可能な指標を備えています。2種類のエージェントインターフェースをテスト：直接キーボード・マウス指令のコンピュータ使用と、意味空間で操作する汎用マルチモーダルエージェント。18のモデル-インターフェースの組み合わせに関する実証実験では、最も優れたパフォーマンスを示した場合でも人間には遠く及ばず、リアルタイム遅延、コンテキスト記憶の感度、動作の有効性などの面で課題が存在します。関連論文とコードは HuggingFace と GitHub で公開されています。

MeNews

2026-05-21 19:59:48

概要作成中

MEニュース　4月17日（UTC+8）、動察Beatingの監測によると、シンガポール国立大学（NUS）チームはGameWorldを発表しました。これは、多模態大規模言語モデル（MLLM）のビデオゲームにおける汎用エージェント能力を標準化して評価するためのベンチマークテストです。この研究は、ビデオゲームが理想的な閉ループインタラクションのテストベッドを提供する一方で、既存の評価は操作インターフェースの不統一や人手によるヒューリスティックな検証に制約されていることを指摘しています。GameWorldには34種類の多様なブラウザゲームと170のタスクが含まれ、各タスクにはゲームの基底状態に基づく検証可能な指標が備えられ、客観的な結果評価を実現しています。研究チームは、2つのエージェントインターフェースをテストしました。1つは、キーボードとマウスの指示を直接出力する「コンピュータ使用（computer-use）」エージェント、もう1つは意味解析を通じて意味的動作空間で操作する汎用多模態エージェントです。 18種類の「モデル-インターフェース」組み合わせによる大規模テストの結果、現在最も優れたAIエージェントでさえ、そのゲーム能力は人間の水準には遠く及ばないことが明らかになりました。研究はまた、リアルタイムインタラクションの遅延、コンテキスト記憶の感度、動作の有効性などの面で、ゲームエージェントが直面する深刻な課題を浮き彫りにしています。関連論文とプロジェクトコードはHugging FaceとGitHubで公開されています。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

13 いいね

報酬
13
5
7
共有

コメントを追加

FrontrunTherapy

· 3時間前

リアルタイム遅延とコンテキスト記憶のこの二つの落とし穴は、たぶん半年以内に埋めるのは難しいだろう

原文表示返信0

GateUser-c4e25c95

· 3時間前

キーボードとマウスの指令はあまりにも乱暴すぎる、汎用多モーダルこそ正解だ

原文表示返信0

StakingDaydreamer

· 3時間前

行動の有効性が低いことは、計画層が依然として弱いことを示しており、知覚-意思決定の連鎖がつながっていない。

原文表示返信0

ExitLiquidityPoet

· 3時間前

公開コードの高評価、再現のハードルが下がり、コミュニティが一緒に進化できる

原文表示返信0

RevokingPermissionsOnARainy

· 3時間前

ブラウザ環境は思ったよりも難しい、DOMの変化が速く、状態が暗黙的で、エージェントは戸惑いやすい

原文表示返信0

人気の話題
もっと見る
#
TradfiTradingChallenge
236.31K 人気度
#
GrayscaleBuysAndStakesOver510KHYPE
8.92M 人気度
#
IsraelStrikesIranBTCPlunges
48.54K 人気度
#
#DailyPolymarketHotspot
1.01M 人気度
#
SpaceXOfficiallyFilesforIPO
751.82K 人気度

ピン留め

サイトマップ

NUSチームがGameWorldベンチマークを発表、34種類のブラウザゲームでマルチモーダルAIエージェントを評価

人気の話題

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

ピン留め