微軟發布首個7B參數計算機操控智能體模型Fara-7B

robot
摘要生成中
AIMPACT 消息,5 月 16 日(UTC+8),微軟推出 Fara-7B,這是其首個專為計算機使用場景設計的 7B 參數智能體小語言模型。該模型採用多模態解碼器架構,能接收截圖圖像和文本上下文,直接預測帶參數的思維鏈和操作動作。基於 Qwen 2.5-VL(7B)構建,支持 128k 上下文長度,在 64 塊 H100 GPU 上訓練 2.5 天,採用 MIT 許可證於 2025 年 11 月 24 日發布。Fara-7B 通過截圖感知瀏覽器輸入,結合內部推理和歷史狀態記錄預測下一步操作及參數(如點擊座標),訓練依賴大規模全合成數據集。模型能規劃和執行高級任務(如預訂餐廳、申請工作、規劃旅行等)。在安全對齊方面,採用穩健後訓練方法,具備關鍵點識別能力,能拒絕七類違反使用政策的任務,並在輸入個人信息、完成購買等關鍵停止點暫停操作。用戶可通過 GitHub 倉庫、vllm 和 fara-cli 工具進行部署和交互查詢,主要應用於自動化網頁任務。(來源:InFoQ)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 8
  • 3
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
Airdrop Nightwatch
· 4小時前
在瀏覽器自動化這一塊,感覺要和 Browser-use、Computer-use 正面較量了
查看原文回復0
MintCondition
· 4小時前
網頁任務自動化,終於不用寫一堆 selector 了
查看原文回復0
Gas费省一点
· 4小時前
後訓練對齊花了多少比例的數據?論文快放出來
查看原文回復0
GateUser-83c80dd0
· 4小時前
7B 參數做 agent 規劃,輕量但能力邊界得實測
查看原文回復0
GateUser-bee672a5
· 4小時前
fara-cli 部署體驗待測試,希望別像某些專案文件稀爛
查看原文回復0
半剖多肉透视
· 4小時前
坐標預測+思維鏈,細粒度控制比純文本 API 強多了
查看原文回復0
0xLateCoffee
· 4小時前
128k 上下文+截圖感知,這組合有點東西
查看原文回復0
Candle Chaser
· 4小時前
MIT 許可好評,7B 能跑本地了
查看原文回復0