微软发布首个7B参数计算机操控智能体模型Fara-7B

robot
摘要生成中
AIMPACT 消息,5 月 16 日(UTC+8),微软推出 Fara-7B,这是其首个专为计算机使用场景设计的 7B 参数智能体小语言模型。该模型采用多模态解码器架构,能接收截图图像和文本上下文,直接预测带参数的思维链和操作动作。基于 Qwen 2.5-VL(7B)构建,支持 128k 上下文长度,在 64 块 H100 GPU 上训练 2.5 天,采用 MIT 许可证于 2025 年 11 月 24 日发布。Fara-7B 通过截图感知浏览器输入,结合内部推理和历史状态记录预测下一步操作及参数(如点击坐标),训练依赖大规模全合成数据集。模型能规划和执行高级任务(如预订餐厅、申请工作、规划旅行等)。在安全对齐方面,采用稳健后训练方法,具备关键点识别能力,能拒绝七类违反使用政策的任务,并在输入个人信息、完成购买等关键停止点暂停操作。用户可通过 GitHub 仓库、vllm 和 fara-cli 工具进行部署和交互查询,主要应用于自动化网页任务。(来源:InFoQ)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 11
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
MintCondition
· 5小时前
后训练安全对齐+关键点暂停,这设计思路明显吃过教训
回复0
Depeg Daydream
· 5小时前
全合成数据训练,数据闭环了,后续迭代成本会越来越低
回复0
蓝莓质押机
· 6小时前
同时处理截图和文本,多模态终于不是噱头而是刚需了
回复0
Latency Monk
· 7小时前
64块H100训2.5天,这成本效率比我想象的低啊
回复0
Bridge Anxiety
· 7小时前
预测坐标和参数这个太关键了,之前用GPT-4V还得自己后处理
回复0
Yield Bento
· 7小时前
fara-cli直接命令行交互,极客狂喜,明天就试试
回复0
蓝牡丹不跌
· 7小时前
能拒绝违规任务还主动暂停,这安全对齐做得比某些闭源模型还细
回复0
紫雾百合
· 7小时前
128k上下文+截图感知,浏览器自动化终于不用写一堆XPath了
回复0
极光下的孤石
· 7小时前
MIT许可意味着可以商用魔改,国内套壳公司准备就绪
回复0
闲鱼DAO成员
· 7小时前
Qwen 2.5-VL底座+全合成数据,合成数据路线越来越主流了
回复0
查看更多