ME News ニュース、4月17日(UTC+8)、動察Beating監測によると、シンガポール国立大学(NUS)チームはGameWorldを発表しました。これは、多模態大規模言語モデル(MLLM)のビデオゲームにおける汎用エージェント能力を標準化して評価するためのベンチマークテストです。この研究は、ビデオゲームが理想的なクローズドループのインタラクションテストベッドを提供する一方で、既存の評価は操作インターフェースの不統一や人間のヒューリスティックな検証に制約されていることを指摘しています。GameWorldには34種類の多様なブラウザゲームと170のタスクが含まれ、各タスクにはゲームの基底状態に基づく検証可能な指標が備えられており、客観的な結果評価を実現しています。研究チームは2つのエージェントインターフェースをテストしました。一つは、直接キーボードとマウスの指示を出力する「コンピュータ使用(computer-use)」エージェント、もう一つは意味解析を通じて意味的動作空間内で
意味アクション空間 vs 直接キーボード・マウス操作、2つのインターフェースの比較データを見てみたい