Fara-7B 基於 Qwen2.5-VL 做多模態操作預測,128k 上下文+合成數據訓練,網頁自動化的新基準來了

查看原文
ME News
微軟發布首個7B參數計算機操控智能體模型Fara-7B
微軟發布 Fara-7B,7B 參數的多模態智能體,專為計算機使用場景設計。可同時處理截圖與文本,直接預測帶參數的思維鏈與操作動作,基於 Qwen 2.5-VL 構建,128k 上下文,64 塊 H100 訓練 2.5 天,MIT 授權發布。它通過截圖感知瀏覽器輸入,結合推理與歷史狀態預測下一步操作及坐標等參數,依賴大規模全合成數據。具備規劃執行高級任務能力,並採用穩健後訓練的安全對齊,能拒絕違規任務並在關鍵點暫停。可通過 GitHub、vllm、fara-cli 部署與交互,用於自動化網頁任務。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆