マネー界ネットワークのニュースによると、マイクロソフトはPhi-Groundモデルファミリーをオープンソース化し、AIがコンピュータを操作する際の「どの点の画面か」問題に特化して解決しています。オープンソースの40億パラメータバージョンは、ShowdownベンチマークテストでOpenAIのOperatorやClaudeを上回るクリック精度を達成し、Screenspot-Proなど五つの評価で百億パラメータ未満の全てで第一位を獲得しました。チームは4000万以上のデータを用いて大規模な検証を行い、従来の学術論文でよく使われていた三つの訓練技術はデータ量が増加するとすべて効果を失うことを発見しました。有効な方法は座標を普通の数字として直接出力することで、「523, 417」のようにします。チームはまた、強化学習が純粋な視覚タスクにも有効であることを発見し、具体的にはモデルに同じ画像に対して複数回クリック予測をさせ、正解と誤りの結果を比較して訓練します。4K高解像度の高性能ディスプレイ上でボタンが小さすぎる問題に対して、チームは訓練時にスクリーンショットを縮小し、大きな白背景のキャンバスに貼り付けて、高解像度ディスプレイ下での要素の極小ささを模擬しました。この手法はPhotoshopなどの複雑な専門ソフトウェア上で特に効果的です。
マイクロソフトがオープンソース化したPhi-Ground:400億パラメータのクリック精度でOperatorとClaudeに勝利
マネー界ネットワークのニュースによると、マイクロソフトはPhi-Groundモデルファミリーをオープンソース化し、AIがコンピュータを操作する際の「どの点の画面か」問題に特化して解決しています。オープンソースの40億パラメータバージョンは、ShowdownベンチマークテストでOpenAIのOperatorやClaudeを上回るクリック精度を達成し、Screenspot-Proなど五つの評価で百億パラメータ未満の全てで第一位を獲得しました。チームは4000万以上のデータを用いて大規模な検証を行い、従来の学術論文でよく使われていた三つの訓練技術はデータ量が増加するとすべて効果を失うことを発見しました。有効な方法は座標を普通の数字として直接出力することで、「523, 417」のようにします。チームはまた、強化学習が純粋な視覚タスクにも有効であることを発見し、具体的にはモデルに同じ画像に対して複数回クリック予測をさせ、正解と誤りの結果を比較して訓練します。4K高解像度の高性能ディスプレイ上でボタンが小さすぎる問題に対して、チームは訓練時にスクリーンショットを縮小し、大きな白背景のキャンバスに貼り付けて、高解像度ディスプレイ下での要素の極小ささを模擬しました。この手法はPhotoshopなどの複雑な専門ソフトウェア上で特に効果的です。