Fara-7B 用截图+文本直接预测点击坐标,相当于给 AI 装上了眼睛和手,MIT 许可开源更是王炸。

ME News
微软发布首个7B参数计算机操控智能体模型Fara-7B
微软发布 Fara-7B,7B 参数的多模态智能体,专为计算机使用场景设计。可同时处理截图与文本,直接预测带参数的思维链与操作动作,基于 Qwen 2.5-VL 构建,128k 上下文,64 块 H100 训练 2.5 天,MIT 许可发布。它通过截图感知浏览器输入,结合推理与历史状态预测下一步操作及坐标等参数,依赖大规模全合成数据。具备规划执行高级任务能力,并采用稳健后训练的安全对齐,能拒绝违规任务并在关键点暂停。可通过 GitHub、vllm、fara-cli 部署与交互,用于自动化网页任务。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论