NUSチームがGameWorldベンチマークを発表、34種類のブラウザゲームでマルチモーダルAIエージェントを評価

robot
概要作成中
MEニュース 4月17日(UTC+8)、動察Beatingの監測によると、シンガポール国立大学(NUS)チームはGameWorldを発表しました。これは、多模態大規模言語モデル(MLLM)のビデオゲームにおける汎用エージェント能力を標準化して評価するためのベンチマークテストです。この研究は、ビデオゲームが理想的な閉ループインタラクションのテストベッドを提供する一方で、既存の評価は操作インターフェースの不統一や人手によるヒューリスティックな検証に制約されていることを指摘しています。GameWorldには34種類の多様なブラウザゲームと170のタスクが含まれ、各タスクにはゲームの基底状態に基づく検証可能な指標が備えられ、客観的な結果評価を実現しています。研究チームは、2つのエージェントインターフェースをテストしました。1つは、キーボードとマウスの指示を直接出力する「コンピュータ使用(computer-use)」エージェント、もう1つは意味解析を通じて意味的動作空間で操作する汎用多模態エージェントです。 18種類の「モデル-インターフェース」組み合わせによる大規模テストの結果、現在最も優れたAIエージェントでさえ、そのゲーム能力は人間の水準には遠く及ばないことが明らかになりました。研究はまた、リアルタイムインタラクションの遅延、コンテキスト記憶の感度、動作の有効性などの面で、ゲームエージェントが直面する深刻な課題を浮き彫りにしています。関連論文とプロジェクトコードはHugging FaceとGitHubで公開されています。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 5
  • 7
  • 共有
コメント
コメントを追加
コメントを追加
FrontrunTherapy
· 3時間前
リアルタイム遅延とコンテキスト記憶のこの二つの落とし穴は、たぶん半年以内に埋めるのは難しいだろう
原文表示返信0
GateUser-c4e25c95
· 3時間前
キーボードとマウスの指令はあまりにも乱暴すぎる、汎用多モーダルこそ正解だ
原文表示返信0
StakingDaydreamer
· 3時間前
行動の有効性が低いことは、計画層が依然として弱いことを示しており、知覚-意思決定の連鎖がつながっていない。
原文表示返信0
ExitLiquidityPoet
· 3時間前
公開コードの高評価、再現のハードルが下がり、コミュニティが一緒に進化できる
原文表示返信0
RevokingPermissionsOnARainy
· 3時間前
ブラウザ環境は思ったよりも難しい、DOMの変化が速く、状態が暗黙的で、エージェントは戸惑いやすい
原文表示返信0
  • ピン留め