微軟終於出手打造7B智能體了,Fara-7B直接看圖操作瀏覽器,MIT開源挺有趣的

查看原文
ME News
微軟發布首個7B參數計算機操控智能體模型Fara-7B
AIMPACT 消息,5 月 16 日(UTC+8),微軟推出 Fara-7B,這是其首個專為計算機使用場景設計的 7B 參數智能體小語言模型。該模型採用多模態解碼器架構,能接收截圖圖像和文本上下文,直接預測帶參數的思維鏈和操作動作。基於 Qwen 2.5-VL(7B)構建,支持 128k 上下文長度,在 64 塊 H100 GPU 上訓練 2.5 天,採用 MIT 許可證於 2025 年 11 月 24 日發布。Fara-7B 通過截圖感知瀏覽器輸入,結合內部推理和歷史狀態記錄預測下一步操作及參數(如點擊座標),訓練依賴大規模全合成數據集。模型能規劃和執行高級任務(如預訂餐廳、申請工作、規劃
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆