MEニュース 4月17日(UTC+8)、動察Beatingの監測によると、シンガポール国立大学(NUS)チームはGameWorldを発表しました。これは、多模態大規模言語モデル(MLLM)のビデオゲームにおける汎用エージェント能力を標準化して評価するためのベンチマークテストです。この研究は、ビデオゲームが理想的な閉ループインタラクションのテストベッドを提供する一方で、既存の評価は操作インターフェースの不統一や人手によるヒューリスティックな検証に制約されていることを指摘しています。GameWorldには34種類の多様なブラウザゲームと170のタスクが含まれ、各タスクにはゲームの基底状態に基づく検証可能な指標が備えられ、客観的な結果評価を実現しています。研究チームは、2つのエージェントインターフェースをテストしました。1つは、キーボードとマウスの指示を直接出力する「コンピュータ使用(computer-use)」エージェント、もう1つは意味解析を通じて意味的動作空間で操作する汎用多模態エージェントです。 18種類の「モデル-インターフェース」組み合わせによる大規模テストの結果、現在最も優れたAIエージェントでさえ、そのゲーム能力は人間の水準には遠く及ばないことが明らかになりました。研究はまた、リアルタイムインタラクションの遅延、コンテキスト記憶の感度、動作の有効性などの面で、ゲームエージェントが直面する深刻な課題を浮き彫りにしています。関連論文とプロジェクトコードはHugging FaceとGitHubで公開されています。(出典:BlockBeats)
NUSチームがGameWorldベンチマークを発表、34種類のブラウザゲームでマルチモーダルAIエージェントを評価
視覚的な挑戦とインタラクションの複雑さがあり、
環境設定に煩わされることもありません。
34種類のゲーム、170のタスク、これだけのカバレッジがある。