Beating報道によると、Phi-Groundのオープンソースモデルはスクリーンショットに指示を入力すると正確なクリック座標を出力できる。40億パラメータのバージョンは指示計画を経て、ShowdownなどのベンチマークでOpenAI OperatorやClaude Computer Useを上回り、多くの評価で同種モデルをリードしている。チームは4000万件のデータを用いて検証し、座標を普通の数字で直接記述するのが最も効果的であることを発見し、文字指示を画像の前に入力して一方向の画像読み取りを実現した。また、DPO強化学習を通じて純粋な視覚タスクの性能を向上させ、高解像度スクリーンのシナリオでは縮小したスクリーンショットを白いキャンバスに貼り付ける訓練方法を採用し、Photoshopなどのシナリオで顕著な効果を示している。

BlockBeatNews

2026-05-10 04:21:00

概要作成中

動態監測 Beating による監視によると、マイクロソフトは Phi-Ground モデルファミリーをオープンソース化し、AIがコンピュータを操作する際の「この点の画面のどこ」問題を解決するために特化しています。スクリーンショットと指示を一つずつ提供すると、モデルは正確なクリック座標を出力します。オープンソースの40億パラメータバージョンは、大規模モデルと組み合わせて指令計画を行った結果、Showdown ベンチマークテストでのクリック精度が OpenAI Operator や Claude Computer Use を上回り、ScreenSpot-Pro など五つの評価項目で百億パラメータ未満のすべてで第一位を獲得しました。

チームは4000万以上のデータを用いて大規模な検証を行い、従来の学術論文でよく使われていた三つの訓練技術はデータ量が増加するとすべて無効になることを発見しました。実際に効果的な方法は非常にシンプルです：座標を普通の数字として直接出力する、例えば「523, 417」のように。以前の多くの論文では座標専用の位置語彙を作成し、モデルに単語のように座標を話させようとしましたが、大規模訓練ではこれらの新語は全く学習できず、むしろモデルの崩壊を引き起こしました。もう一つの重要なポイントは、文字指示を画像の前に入力することです。大規模モデルは情報を一方向に読み取るため、「青色設定アイコンをクリック」などの指示を先に読んでから画像を見ると、ピクセル処理の段階で何を探すべきか既にわかっています。逆に画像を先に見てしまうと、モデルは盲目的にスキャンするだけになり、効果は大きく低下します。

チームはまた、強化学習が純粋なビジュアルタスクにも有効であることを発見しました。具体的には、モデルに同じ画像に対して複数回クリック予測をさせ、正解と誤りの結果を比較して訓練する方法（この手法は DPO と呼ばれ、強化学習の一種です）です。モデルが十分微調整されていても、このステップは明らかに精度を向上させることができます。従来の強化学習は推論を必要とする言語タスクにのみ使われてきましたが、「画像を見て指示通りに操作する」感知タスクにも効果があることは意外な発見です。4K高解像度のディスプレイ上でボタンが小さすぎる問題（ボタンが画面面積の0.07%しか占めない場合など）に対して、チームは訓練時にスクリーンショットを縮小し、その後白背景のキャンバスに貼り付けて高解像度ディスプレイの極小要素の実場面を模擬しました。この手法はPhotoshopなどの複雑な専門ソフトウェア上で特に効果的です。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。