Beatingによると、Microsoftは最近Phi-Groundモデルファミリーをオープンソース化し、「AIはコンピュータの画面上のどこをクリックすべきか」という問題の解決を目指している。この40億パラメータのバージョンは、指示計画に用いるより大きな言語モデルと組み合わせて、ShowdownベンチマークテストでOpenAIのOperatorやClaudeのComputer Useを上回るクリック精度を達成し、ScreenSpot-Proを含む5つの評価で、100億未満のパラメータを持つモデルの中で最も高い順位に立った。チームは4000万以上のデータサンプルで訓練を行い、学術論文で使われる3つの一般的な訓練技術が規模拡大に伴い無効になることを発見した。重要なアイデアは非常にシンプルで、通常の数字出力で座標を示すこと、例えば「523, 417.」だ。以前の研究では座標に特化した語彙が導入されたが、これらの方法は規模拡大に適さなかった。さらに、テキスト指示を画像の前に置くことで性能が向上することも判明し、モデルはピクセルを処理する際にターゲットを認識できるようになった。また、DPOのような強化学習手法は微調整後も精度向上に寄与し続ける。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン