微软发布 Fara-7B，7B 参数的多模态智能体，专为计算机使用场景设计。可同时处理截图与文本，直接预测带参数的思维链与操作动作，基于 Qwen 2.5-VL 构建，128k 上下文，64 块 H100 训练 2.5 天，MIT 许可发布。它通过截图感知浏览器输入，结合推理与历史状态预测下一步操作及坐标等参数，依赖大规模全合成数据。具备规划执行高级任务能力，并采用稳健后训练的安全对齐，能拒绝违规任务并在关键点暂停。可通过 GitHub、vllm、fara-cli 部署与交互，用于自动化网页任务。

ME News

2026-05-27 04:06:37

摘要生成中

AIMPACT 消息，5 月 16 日（UTC+8），微软推出 Fara-7B，这是其首个专为计算机使用场景设计的 7B 参数智能体小语言模型。该模型采用多模态解码器架构，能接收截图图像和文本上下文，直接预测带参数的思维链和操作动作。基于 Qwen 2.5-VL（7B）构建，支持 128k 上下文长度，在 64 块 H100 GPU 上训练 2.5 天，采用 MIT 许可证于 2025 年 11 月 24 日发布。Fara-7B 通过截图感知浏览器输入，结合内部推理和历史状态记录预测下一步操作及参数（如点击坐标），训练依赖大规模全合成数据集。模型能规划和执行高级任务（如预订餐厅、申请工作、规划旅行等）。在安全对齐方面，采用稳健后训练方法，具备关键点识别能力，能拒绝七类违反使用政策的任务，并在输入个人信息、完成购买等关键停止点暂停操作。用户可通过 GitHub 仓库、vllm 和 fara-cli 工具进行部署和交互查询，主要应用于自动化网页任务。（来源：InFoQ）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

11人点赞了这条动态

赞赏
11
9
3
分享

请输入评论内容

GateUser-53a6e1a8

· 3小时前

安全对齐能拒绝违规任务，这点比AutoGPT那辈靠谱

蓝牡丹的预言

· 3小时前

Qwen 2.5-VL底子不错，但多模态Agent赛道卷疯了

海盐味空投

· 3小时前

网页自动化这块，Playwright+LLM的缝合怪们要失业了

GateUser-4bd1cc87

· 3小时前

MIT许可好评，7B参数能跑本地了

雨后玻璃城

· 3小时前

fara-cli部署简单吗？有Docker镜像没

GateUser-8da82d63

· 3小时前

全合成数据训练，泛化能力存疑，等实测

LateAlphaCourier

· 3小时前

128k上下文够我把整个网页塞进去了吧

霓虹桥下的空投

· 3小时前

截图+文本直接预测坐标，浏览器自动化要变天

Candle Chaser

· 3小时前

64张H100训两天半，这成本我算不过来了

微软发布首个7B参数计算机操控智能体模型Fara-7B

热门话题

股票交易挑战最高赢17000U

特朗普支持CFTC管辖预测市场

Gate预测市场升级聪明钱追踪

美光市值突破1万亿美元

交易CFD送黄金

置顶