Microsoft merilis model agen cerdas pengendalian komputer dengan 7 miliar parameter pertama, Fara-7B

robot
Pembuatan abstrak sedang berlangsung
AIMPACT Pesan, 16 Mei (UTC+8), Microsoft meluncurkan Fara-7B, ini adalah model bahasa kecil dengan parameter 7B yang dirancang khusus untuk skenario penggunaan komputer. Model ini menggunakan arsitektur dekoder multimodal, mampu menerima gambar tangkapan layar dan konteks teks, langsung memprediksi rantai pemikiran dan tindakan operasional yang berparameter. Dibangun berdasarkan Qwen 2.5-VL (7B), mendukung panjang konteks 128k, dilatih selama 2,5 hari di 64 GPU H100, dirilis dengan lisensi MIT pada 24 November 2025. Fara-7B dapat memahami input browser melalui tangkapan layar, menggabungkan penalaran internal dan catatan status sejarah untuk memprediksi langkah berikutnya dan parameter (seperti koordinat klik), pelatihan bergantung pada dataset sintetik besar secara keseluruhan. Model ini mampu merencanakan dan melaksanakan tugas tingkat tinggi (seperti memesan restoran, melamar pekerjaan, merencanakan perjalanan, dll). Dalam hal penyelarasan keamanan, menggunakan metode pelatihan pasca yang kokoh, memiliki kemampuan pengenalan titik kunci, mampu menolak tujuh jenis tugas yang melanggar kebijakan penggunaan, dan berhenti saat memasukkan informasi pribadi, menyelesaikan pembelian, dan titik berhenti penting lainnya. Pengguna dapat melakukan deployment dan interaksi melalui repositori GitHub, vllm, dan alat fara-cli, yang terutama digunakan untuk otomatisasi tugas web. (Sumber: InFoQ)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 11
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
MintCondition
· 5jam yang lalu
Penyelarasan keamanan pasca pelatihan + penangguhan poin kunci, pola desain ini jelas terpengaruh oleh pelajaran yang dipetik
Lihat AsliBalas0
DepegDaydream
· 5jam yang lalu
Pelatihan data sintetis lengkap, data tertutup, biaya iterasi selanjutnya akan semakin rendah
Lihat AsliBalas0
BlueberryStakingMachine
· 6jam yang lalu
Menangani tangkapan layar dan teks secara bersamaan, multimodal akhirnya bukan lagi gimmick melainkan kebutuhan mendesak
Lihat AsliBalas0
LatencyMonk
· 7jam yang lalu
64 kartu H100 melatih selama 2,5 hari, efisiensi biaya ini lebih rendah dari yang saya bayangkan
Lihat AsliBalas0
BridgeAnxiety
· 7jam yang lalu
Perkiraan koordinat dan parameter ini sangat penting, sebelumnya menggunakan GPT-4V harus melakukan pemrosesan ulang sendiri
Lihat AsliBalas0
YieldBento
· 7jam yang lalu
fara-cli langsung berinteraksi melalui baris perintah, para geek sangat senang, akan coba besok
Lihat AsliBalas0
BluePeonyDoesn'tDrop
· 7jam yang lalu
Dapat menolak tugas yang melanggar aturan dan secara aktif menghentikan, keamanan yang disesuaikan dilakukan lebih teliti daripada beberapa model tertutup.
Lihat AsliBalas0
PurpleMistLily
· 7jam yang lalu
128k konteks+kesadaran tangkapan layar, otomatisasi browser akhirnya tidak perlu lagi menulis banyak XPath
Lihat AsliBalas0
LonelyStoneUnderTheAurora
· 7jam yang lalu
Lisensi MIT berarti dapat digunakan untuk komersial dan modifikasi, perusahaan cangkang domestik siap sedia
Lihat AsliBalas0
IdleFishDaoMember
· 7jam yang lalu
Qwen 2.5-VL dasar + data sintetis lengkap, jalur data sintetis semakin menjadi arus utama
Lihat AsliBalas0
Lihat Lebih Banyak