マイクロソフトがオープンソース化したPhi-Ground:400億パラメータのクリック精度でOperatorとClaudeに勝利

robot
概要作成中

動態監測 Beating による監視によると、マイクロソフトは Phi-Ground モデルファミリーをオープンソース化し、AIがコンピュータを操作する際の「この点の画面のどこ」問題を解決するために特化しています。スクリーンショットと指示を一つずつ提供すると、モデルは正確なクリック座標を出力します。オープンソースの40億パラメータバージョンは、大規模モデルと組み合わせて指令計画を行った結果、Showdown ベンチマークテストでのクリック精度が OpenAI Operator や Claude Computer Use を上回り、ScreenSpot-Pro など五つの評価項目で百億パラメータ未満のすべてで第一位を獲得しました。

チームは4000万以上のデータを用いて大規模な検証を行い、従来の学術論文でよく使われていた三つの訓練技術はデータ量が増加するとすべて無効になることを発見しました。実際に効果的な方法は非常にシンプルです:座標を普通の数字として直接出力する、例えば「523, 417」のように。以前の多くの論文では座標専用の位置語彙を作成し、モデルに単語のように座標を話させようとしましたが、大規模訓練ではこれらの新語は全く学習できず、むしろモデルの崩壊を引き起こしました。もう一つの重要なポイントは、文字指示を画像の前に入力することです。大規模モデルは情報を一方向に読み取るため、「青色設定アイコンをクリック」などの指示を先に読んでから画像を見ると、ピクセル処理の段階で何を探すべきか既にわかっています。逆に画像を先に見てしまうと、モデルは盲目的にスキャンするだけになり、効果は大きく低下します。

チームはまた、強化学習が純粋なビジュアルタスクにも有効であることを発見しました。具体的には、モデルに同じ画像に対して複数回クリック予測をさせ、正解と誤りの結果を比較して訓練する方法(この手法は DPO と呼ばれ、強化学習の一種です)です。モデルが十分微調整されていても、このステップは明らかに精度を向上させることができます。従来の強化学習は推論を必要とする言語タスクにのみ使われてきましたが、「画像を見て指示通りに操作する」感知タスクにも効果があることは意外な発見です。4K高解像度のディスプレイ上でボタンが小さすぎる問題(ボタンが画面面積の0.07%しか占めない場合など)に対して、チームは訓練時にスクリーンショットを縮小し、その後白背景のキャンバスに貼り付けて高解像度ディスプレイの極小要素の実場面を模擬しました。この手法はPhotoshopなどの複雑な専門ソフトウェア上で特に効果的です。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン