Menurut laporan Beating, model sumber terbuka Phi-Ground dapat menghasilkan koordinat klik yang akurat setelah menerima instruksi tangkapan layar. Versi dengan 4 miliar parameter yang dirancang berdasarkan instruksi, melampaui OpenAI Operator, Claude Computer Use dalam benchmark seperti Showdown, dan memimpin model sejenis dalam berbagai evaluasi. Tim memverifikasi dengan 40 juta data, menemukan bahwa menulis koordinat langsung sebagai angka biasa paling efektif, dan memasukkan instruksi teks sebelum gambar untuk mencapai pembacaan gambar satu arah. Mereka juga meningkatkan performa tugas visual murni melalui pembelajaran penguatan DPO, dan dalam skenario layar resolusi tinggi, menggunakan metode melipat gambar tangkapan layar kecil di atas kanvas putih, menghasilkan efek yang signifikan di Photoshop dan skenario lainnya.

BlockBeatNews

2026-05-10 04:21:00

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating Monitoring, Microsoft merilis model keluarga Phi-Ground secara open source, yang dirancang khusus untuk mengatasi masalah “titik layar mana” saat AI mengendalikan komputer. Dengan memberikan tangkapan layar dan sebuah instruksi, model akan menghasilkan koordinat klik yang tepat. Versi open source dengan 4 miliar parameter yang dipadukan dengan model besar untuk perencanaan instruksi, dalam pengujian standar Showdown, tingkat akurasi klik melebihi OpenAI Operator dan Claude Computer Use, dan dalam lima penilaian lainnya seperti ScreenSpot-Pro, meraih posisi pertama di bawah parameter 10 miliar.

Tim melakukan verifikasi skala besar dengan lebih dari 40 juta data, menemukan bahwa tiga teknik pelatihan yang umum digunakan dalam makalah akademik sebelumnya menjadi tidak efektif setelah volume data diperbesar. Pendekatan yang benar-benar efektif sangat sederhana: langsung keluarkan koordinat sebagai angka biasa, misalnya “523, 417”. Sebelumnya, beberapa makalah memperkenalkan kosakata posisi khusus untuk koordinat, berharap model bisa mengucapkan koordinat seperti kata, tetapi saat pelatihan skala besar, kata-kata baru ini sulit dipelajari dan malah menyebabkan model crash. Hal penting lainnya adalah menempatkan instruksi teks di depan gambar saat input. Model besar membaca informasi secara searah, jika pertama kali membaca “klik ikon pengaturan berwarna biru” lalu melihat gambar, saat memproses piksel, model sudah tahu apa yang harus dicari; sebaliknya, jika pertama kali melihat gambar, model hanya bisa melakukan pencarian buta, hasilnya jauh lebih buruk.

Tim juga menemukan bahwa pembelajaran penguatan (reinforcement learning) berguna untuk tugas visual murni. Caranya adalah membiarkan model melakukan prediksi klik berulang kali pada gambar yang sama, kemudian membandingkan hasil yang benar dan salah untuk pelatihan (metode ini disebut DPO, termasuk dalam kategori pembelajaran penguatan). Bahkan setelah model cukup fine-tuned, langkah ini tetap dapat meningkatkan tingkat akurasi secara signifikan. Sebelumnya, pembelajaran penguatan biasanya hanya digunakan untuk tugas bahasa yang memerlukan penalaran, tetapi dapat juga berfungsi pada tugas persepsi murni seperti “lihat gambar, tunjukkan tempatnya”, ini adalah penemuan yang tak terduga. Untuk mengatasi masalah tombol yang terlalu kecil di layar 4K (satu tombol mungkin hanya menempati 0,07% dari area layar), tim saat pelatihan mengecilkan tangkapan layar secara proporsional lalu menempelkannya ke atas kanvas berwarna putih besar, mensimulasikan skenario nyata di mana elemen sangat kecil di layar resolusi tinggi. Teknik ini sangat efektif saat digunakan pada perangkat lunak profesional kompleks seperti Photoshop.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
1.05M Popularitas
#
BTCBackAbove80K
59.45M Popularitas
#
IsraelStrikesIranBTCPlunges
45.63K Popularitas
#
JapanTokenizesGovernmentBonds
1.9M Popularitas
#
#DailyPolymarketHotspot
870.63K Popularitas

Sematkan

peta situs

Microsoft membuka sumber Phi-Ground: akurasi klik dengan 4 miliar parameter mengalahkan Operator dan Claude

Topik Trending

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Sematkan