Menurut Beating, Microsoft baru-baru ini merilis sumber terbuka keluarga model Phi-Ground, yang bertujuan untuk menyelesaikan masalah "di mana AI harus mengklik di layar komputer". Versi dengan 4 miliar parameter ini, dikombinasikan dengan model bahasa yang lebih besar untuk perencanaan instruksi, melampaui tingkat akurasi klik dari OpenAI Operator dan Claude Computer Use dalam pengujian standar Showdown, dan menempati posisi teratas di antara lima penilaian termasuk ScreenSpot-Pro untuk semua model dengan parameter di bawah 10 miliar. Tim melatih model ini pada lebih dari 40 juta sampel data dan menemukan bahwa tiga teknik pelatihan umum yang digunakan dalam makalah akademik menjadi tidak efektif saat skala diperbesar. Ide kunci terbukti sangat sederhana: menggunakan output angka konvensional untuk koordinat, misalnya "523, 417." Penelitian sebelumnya telah menciptakan kosakata posisi khusus untuk koordinat, tetapi metode ini tidak dapat diskalakan. Tim juga menemukan bahwa menempatkan instruksi teks sebelum gambar dapat meningkatkan kinerja, karena model mampu mengenali target saat memproses piksel. Selain itu, metode pembelajaran penguatan seperti DPO tetap dapat meningkatkan tingkat akurasi setelah penyetelan halus.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan