NUS チームは GameWorld ベンチマークを発表し、34のブラウザゲームと170のタスクを含み、客観的評価を可能にする検証可能な指標を備えています。2種類のエージェントインターフェースをテスト：直接キーボード・マウス指令のコンピュータ使用と、意味空間で操作する汎用マルチモーダルエージェント。18種類のモデル-インターフェースの組み合わせに関する実証実験では、最も優れたパフォーマンスを示した場合でも人間には遠く及ばず、リアルタイム遅延、コンテキスト記憶の感度、動作の有効性などの面で課題が存在します。関連論文とコードは HuggingFace と GitHub で公開されています。

MeNews

2026-05-21 11:56:03

概要作成中

MEニュース　4月17日（UTC+8）、動察Beatingの監測によると、シンガポール国立大学（NUS）チームはGameWorldを発表しました。これは、多模態大規模言語モデル（MLLM）のビデオゲームにおける汎用エージェント能力を標準化して評価するためのベンチマークテストです。この研究は、ビデオゲームが理想的な閉ループインタラクションのテストベッドを提供する一方で、既存の評価は操作インターフェースの不統一や人手によるヒューリスティックな検証に制約されていることを指摘しています。GameWorldには34種類の多様なブラウザゲームと170のタスクが含まれ、各タスクにはゲームの基底状態に基づく検証可能な指標が備えられ、客観的な結果評価を実現しています。研究チームは、2つのエージェントインターフェースをテストしました。1つは、キーボードとマウスの指示を直接出力する「コンピュータ使用（computer-use）」エージェント、もう1つは意味解析を通じて意味的動作空間で操作する汎用多模態エージェントです。 18種類の「モデル-インターフェース」組み合わせによる大規模テストの結果、現在最も優れたAIエージェントでさえ、そのゲーム能力は人間の水準には遠く及ばないことが明らかになりました。研究はまた、リアルタイムインタラクションの遅延、コンテキスト記憶の感度、動作の有効性などの面で、ゲームエージェントが直面する深刻な課題を浮き彫りにしています。関連論文とプロジェクトコードはHugging FaceとGitHubで公開されています。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

10 いいね

報酬
10
10
7
共有

コメントを追加

FeeswitchWhisperer

· 36分前

このベンチマークが出て、ゲームエージェントの競技分野がついに盛り上がってきた。各大企業の追随を待つばかりだ。

原文表示返信0

SeaSaltSparklingWater

· 9時間前

検証可能な指標は重要であり、以前はあまりにも多くの主観的評価が議論を巻き起こし、正確さがなかった

原文表示返信0

PickingUpAirdropsInTheFog

· 9時間前

ブラウザゲームのこのシナリオの選択は素晴らしいです。
視覚的な挑戦とインタラクションの複雑さがあり、
環境設定に煩わされることもありません。

原文表示返信0

VintageKeychain

· 9時間前

HuggingFaceとGitHubの両方がオープンソース化されている、素晴らしいことだ。再現のハードルが下がることでコミュニティの追随を促進できる。

原文表示返信0

LiquidationRaincoat

· 10時間前

computer-use vs 通用多模态この対比設計はなかなか面白いですね。具体的にどのようなシーンの意味空間が逆に不利になるのか見てみたいです。

原文表示返信0

TidalShellReflection

· 10時間前

18種類のモデル-インターフェースの組み合わせ、アブレーション実験は十分に詳細に行われている、NUSチームの仕事のスタイルが好きだ

原文表示返信0

OwlAuthorizationMonitor

· 10時間前

アクションの有効性という指標の設計は良いもので、多くのベンチマークは最終的なスコアだけを気にして、過程の優雅さを気にしない。

原文表示返信0

Paper-CutOctopusMarketAnalysis

· 10時間前

最优秀的表现也远不及人类，看来游戏エージェント还有很长的路要走，不是堆参数能解决的

原文表示返信0

0xLateDinner

· 10時間前

リアルタイム遅延とコンテキスト記憶の感度、この二つの痛点は本当に現実的だ。高速なゲームをプレイしたことがある人なら皆理解している。

原文表示返信0

PixelatedDriedFish

· 10時間前

ついにチームが真剣に取り組むブラウザゲームのエージェントベンチマークが登場した。
34種類のゲーム、170のタスク、これだけのカバレッジがある。

原文表示返信0

人気の話題
もっと見る
#
TradfiTradingChallenge
235.7K 人気度
#
GrayscaleBuysAndStakesOver510KHYPE
8.91M 人気度
#
IsraelStrikesIranBTCPlunges
48.52K 人気度
#
#DailyPolymarketHotspot
1.02M 人気度
#
SpaceXOfficiallyFilesforIPO
751.67K 人気度

ピン留め

サイトマップ

NUSチームがGameWorldベンチマークを発表、34種類のブラウザゲームでマルチモーダルAIエージェントを評価

人気の話題

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

ピン留め