Microsoft membuka sumber Phi-Ground: akurasi klik dengan 4 miliar parameter mengalahkan Operator dan Claude

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating Monitoring, Microsoft merilis model keluarga Phi-Ground secara open source, yang dirancang khusus untuk mengatasi masalah “titik layar mana” saat AI mengendalikan komputer. Dengan memberikan tangkapan layar dan sebuah instruksi, model akan menghasilkan koordinat klik yang tepat. Versi open source dengan 4 miliar parameter yang dipadukan dengan model besar untuk perencanaan instruksi, dalam pengujian standar Showdown, tingkat akurasi klik melebihi OpenAI Operator dan Claude Computer Use, dan dalam lima penilaian lainnya seperti ScreenSpot-Pro, meraih posisi pertama di bawah parameter 10 miliar.

Tim melakukan verifikasi skala besar dengan lebih dari 40 juta data, menemukan bahwa tiga teknik pelatihan yang umum digunakan dalam makalah akademik sebelumnya menjadi tidak efektif setelah volume data diperbesar. Pendekatan yang benar-benar efektif sangat sederhana: langsung keluarkan koordinat sebagai angka biasa, misalnya “523, 417”. Sebelumnya, beberapa makalah memperkenalkan kosakata posisi khusus untuk koordinat, berharap model bisa mengucapkan koordinat seperti kata, tetapi saat pelatihan skala besar, kata-kata baru ini sulit dipelajari dan malah menyebabkan model crash. Hal penting lainnya adalah menempatkan instruksi teks di depan gambar saat input. Model besar membaca informasi secara searah, jika pertama kali membaca “klik ikon pengaturan berwarna biru” lalu melihat gambar, saat memproses piksel, model sudah tahu apa yang harus dicari; sebaliknya, jika pertama kali melihat gambar, model hanya bisa melakukan pencarian buta, hasilnya jauh lebih buruk.

Tim juga menemukan bahwa pembelajaran penguatan (reinforcement learning) berguna untuk tugas visual murni. Caranya adalah membiarkan model melakukan prediksi klik berulang kali pada gambar yang sama, kemudian membandingkan hasil yang benar dan salah untuk pelatihan (metode ini disebut DPO, termasuk dalam kategori pembelajaran penguatan). Bahkan setelah model cukup fine-tuned, langkah ini tetap dapat meningkatkan tingkat akurasi secara signifikan. Sebelumnya, pembelajaran penguatan biasanya hanya digunakan untuk tugas bahasa yang memerlukan penalaran, tetapi dapat juga berfungsi pada tugas persepsi murni seperti “lihat gambar, tunjukkan tempatnya”, ini adalah penemuan yang tak terduga. Untuk mengatasi masalah tombol yang terlalu kecil di layar 4K (satu tombol mungkin hanya menempati 0,07% dari area layar), tim saat pelatihan mengecilkan tangkapan layar secara proporsional lalu menempelkannya ke atas kanvas berwarna putih besar, mensimulasikan skenario nyata di mana elemen sangat kecil di layar resolusi tinggi. Teknik ini sangat efektif saat digunakan pada perangkat lunak profesional kompleks seperti Photoshop.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan