Fara-7B menggunakan tangkapan layar + teks untuk langsung memprediksi koordinat klik, sama dengan memberi AI mata dan tangan, lisensi MIT open source adalah langkah yang sangat hebat.

Lihat Asli
MeNews
Microsoft merilis model agen cerdas pengendalian komputer dengan 7 miliar parameter pertama, Fara-7B
Microsoft 发布 Fara-7B,7B 参数的多模态智能体,专为计算机使用场景设计。可同时处理截图与文本,直接预测带参数的思维链与操作动作,基于 Qwen 2.5-VL 构建,128k 上下文,64 块 H100 训练 2.5 天,MIT 许可发布。它通过截图感知浏览器输入,结合推理与历史状态预测下一步操作及坐标等参数,依赖大规模全合成数据。具备规划执行高级任务能力,并采用稳健后训练的安全对齐,能拒绝违规任务并在关键点暂停。可通过 GitHub、vllm、fara-cli 部署与交互,用于自动化网页任务。
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan