Microsoft membuka sumber Phi-Ground: akurasi klik dengan 4 miliar parameter mengalahkan Operator dan Claude

robot
Pembuatan abstrak sedang berlangsung

Berita dari CoinWorld, Microsoft merilis keluarga model Phi-Ground sebagai sumber terbuka, yang dirancang khusus untuk mengatasi masalah “lokasi layar mana” saat AI mengendalikan komputer. Versi dengan 4 miliar parameter yang dirilis secara terbuka mencapai tingkat akurasi klik lebih dari OpenAI Operator dan Claude dalam pengujian standar Showdown, dan meraih posisi pertama dalam lima pengujian termasuk Screenspot-Pro di bawah parameter 100 miliar. Tim melakukan verifikasi skala besar dengan lebih dari 40 juta data, menemukan bahwa tiga teknik pelatihan yang umum digunakan dalam makalah akademik sebelumnya semuanya tidak efektif setelah volume data diperbesar. Pendekatan yang efektif adalah langsung menganggap koordinat sebagai angka biasa, seperti “523, 417”. Tim juga menemukan bahwa pembelajaran penguatan berguna untuk tugas visual murni, dengan cara membuat model melakukan prediksi klik berulang pada gambar yang sama, lalu membandingkan hasil yang benar dan salah untuk pelatihan. Untuk mengatasi masalah tombol yang terlalu kecil di layar 4K berkualitas tinggi, tim selama pelatihan memperkecil tangkapan layar secara proporsional lalu menempelkannya ke kanvas berwarna putih besar, mensimulasikan skenario nyata di mana elemen sangat kecil di layar berkualitas tinggi. Strategi ini sangat efektif saat digunakan pada perangkat lunak profesional kompleks seperti Photoshop.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan