NUSチームがGameWorldベンチマークを発表、34種類のブラウザゲームでマルチモーダルAIエージェントを評価

robot
概要作成中
MEニュース 4月17日(UTC+8)、動察Beatingの監測によると、シンガポール国立大学(NUS)チームはGameWorldを発表しました。これは、多模態大規模言語モデル(MLLM)のビデオゲームにおける汎用エージェント能力を標準化して評価するためのベンチマークテストです。この研究は、ビデオゲームが理想的な閉ループインタラクションのテストベッドを提供する一方で、既存の評価は操作インターフェースの不統一や人手によるヒューリスティックな検証に制約されていることを指摘しています。GameWorldには34種類の多様なブラウザゲームと170のタスクが含まれ、各タスクにはゲームの基底状態に基づく検証可能な指標が備えられ、客観的な結果評価を実現しています。研究チームは、2つのエージェントインターフェースをテストしました。1つは、キーボードとマウスの指示を直接出力する「コンピュータ使用(computer-use)」エージェント、もう1つは意味解析を通じて意味的動作空間で操作する汎用多模態エージェントです。 18種類の「モデル-インターフェース」組み合わせによる大規模テストの結果、現在最も優れたAIエージェントでさえ、そのゲーム能力は人間の水準には遠く及ばないことが明らかになりました。研究はまた、リアルタイムインタラクションの遅延、コンテキスト記憶の感度、動作の有効性などの面で、ゲームエージェントが直面する深刻な課題を浮き彫りにしています。関連論文とプロジェクトコードはHugging FaceとGitHubで公開されています。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 10
  • 7
  • 共有
コメント
コメントを追加
コメントを追加
FeeswitchWhisperer
· 36分前
このベンチマークが出て、ゲームエージェントの競技分野がついに盛り上がってきた。各大企業の追随を待つばかりだ。
原文表示返信0
SeaSaltSparklingWater
· 9時間前
検証可能な指標は重要であり、以前はあまりにも多くの主観的評価が議論を巻き起こし、正確さがなかった
原文表示返信0
PickingUpAirdropsInTheFog
· 9時間前
ブラウザゲームのこのシナリオの選択は素晴らしいです。
視覚的な挑戦とインタラクションの複雑さがあり、
環境設定に煩わされることもありません。
原文表示返信0
VintageKeychain
· 9時間前
HuggingFaceとGitHubの両方がオープンソース化されている、素晴らしいことだ。再現のハードルが下がることでコミュニティの追随を促進できる。
原文表示返信0
LiquidationRaincoat
· 10時間前
computer-use vs 通用多模态この対比設計はなかなか面白いですね。具体的にどのようなシーンの意味空間が逆に不利になるのか見てみたいです。
原文表示返信0
TidalShellReflection
· 10時間前
18種類のモデル-インターフェースの組み合わせ、アブレーション実験は十分に詳細に行われている、NUSチームの仕事のスタイルが好きだ
原文表示返信0
OwlAuthorizationMonitor
· 10時間前
アクションの有効性という指標の設計は良いもので、多くのベンチマークは最終的なスコアだけを気にして、過程の優雅さを気にしない。
原文表示返信0
Paper-CutOctopusMarketAnalysis
· 10時間前
最优秀的表现也远不及人类,看来游戏エージェント还有很长的路要走,不是堆参数能解决的
原文表示返信0
0xLateDinner
· 10時間前
リアルタイム遅延とコンテキスト記憶の感度、この二つの痛点は本当に現実的だ。高速なゲームをプレイしたことがある人なら皆理解している。
原文表示返信0
PixelatedDriedFish
· 10時間前
ついにチームが真剣に取り組むブラウザゲームのエージェントベンチマークが登場した。
34種類のゲーム、170のタスク、これだけのカバレッジがある。
原文表示返信0
もっと見る
  • ピン留め