微软研究员在Perplexity自主开发的基准测试中表现出色:在Frontier中进行双模型评审,Cowork推出长任务代理

robot
摘要生成中

根据 1M AI News 的监测,微软已通过 Frontier(一个面向企业用户的预发布试用项目,允许参与者在功能正式上线前体验 Copilot 功能)同时为 Microsoft 365 Copilot 推出了两项新能力。研究员(Copilot 内置的深度研究代理)引入了两种新的多模型协作模式:Critique 和 Council。Critique 与来自 Anthropic 和 OpenAI 的模型协作:一个负责规划、检索和起草,另一个专注于审阅和完善,并且默认启用了 Auto。Council 的运作方式类似,两种模型都会生成完整报告,然后再由一个独立的评审模型进行总结。微软使用 GPT-5.2 作为评估模型(在原论文的三种评估方法中最严格的那一种)来测试 Critique 在 DRACO 基准上的表现(该基准包含由 Perplexity 研究人员发布、覆盖 10 个领域的 100 个复杂研究问题)。总体得分比该基准中表现最好的系统 Perplexity Deep Research(使用 Claude Opus 4.6)高出 7.0 分,代表相对提升 13.88%。Critique 未包含在原始 DRACO 论文中,而这些数据是微软在相同评估协议下通过自测获得的。Copilot Cowork 面向更长的多步骤任务:它会先基于目标生成计划,然后在工具和文档之间按步骤推进,并在整个过程中展示进度,使用户可以在任意时刻介入。微软已提及 Capital Group 作为早期用例,称其已用于项目规划、排程、交付物创建以及准备高管评审。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论