微软让GPT和Claude协同工作——其成果超越了所有现有的AI研究工具

简述

  • 微软发布了两种不同模式,将 GPT 和 Claude 配对以提升 AI 研究的质量。
  • Critique 让模型协作,而 Council 让它们并行工作,随后第三位评审会发现其中的差异。
  • 这个由两种模型构成的工作流程能解决幻觉、弱引文以及其他与单一模型 AI 研究相关的问题。

深度研究型 AI 今年一直是科技领域最激烈的军备竞赛之一。今年 12 月,Google 宣布了其用于 Gemini 的研究代理;2025 年 2 月,OpenAI 发布了自己的研究代理;随后 xAI 也紧随其后;Perplexity 加大投入;而 Anthropic 的 Claude 在去年 4 月面向专业人士构建了忠实用户群——这些专业人士需要带有详细引用的答案,并在去年引入了它的代理。

每家公司都在试图说服你:它们那一个 AI 模型才是房间里最聪明的研究者。微软刚刚说了:为什么非要选一个?

该公司周一宣布了 Copilot 的 Researcher 工具的两项新功能——分别叫 Critique 和 Council——它们让 OpenAI 的 GPT 和 Anthropic 的 Claude 在同一个研究任务中按顺序依次执行。根据微软在行业基准测试中的结果,它的评分高于测试中包含的所有系统,包括来自顶级 AI 公司的模型。

在 M365 Copilot 中介绍 Critique:一种新的多模型深度研究系统。

你可以让多个模型一起生成最优的回复和报告。pic.twitter.com/m4RlQmCKzs

— Satya Nadella (@satyanadella) 2026 年 3 月 30 日

“Critique 是一种为复杂研究任务设计的新的多模型深度研究系统。它将生成与评估分离,并利用来自 Frontier 实验室的一组合模型,包括 Anthropic 和 OpenAI,”微软解释道。“一个模型负责生成阶段:规划任务、迭代检索流程,并产出初稿;而第二个模型则专注于审查与完善,在最终报告生成之前充当专家审阅者。”

下面是 Critique 旨在修复的基本问题:如今每一个 AI 研究工具都以相同的方式运作。你提出一个问题,一个模型负责规划搜索、搜遍资料、撰写报告,然后把结果交还给你。这个单一模型把所有事情都做完了,却没人去检查它的工作。

这可能会导致一些幻觉混入、引文出现错误、虚假或不准确的说法等问题。



Critique 将这种工作流拆成两段。GPT 负责第一阶段——它规划研究、获取来源,并撰写初稿。然后 Claude 以严格编辑者的身份介入:审阅报告在事实准确性、引文质量方面如何,以及答案是否确实回应了所提问的内容。只有在这次审阅之后,最终报告才会交付给用户。微软表示,这些角色最终也可以在相反方向运行:例如由 Claude 起草、GPT 做评析,不过目前还是由 GPT 先进行。

在 DRACO 基准测试上——这是一项覆盖 10 个领域中共 100 项复杂研究任务的标准化测试,包括医学、法学和技术——使用 Critique 的 Copilot 得分为 57.4 分。Anthropic 的 Claude Opus 单独达到 42.7 分。微软的组合系统以将近 14% 的优势超越了下一个最佳结果。

图片:Microsoft

最大的收益体现在分析的广度和呈现质量上,事实准确性同样也取得了显著提升。

第二个功能 Council 采取了应对同一问题的不同方式。Council 不让一个模型去审核另一个模型的工作,而是让 GPT 和 Claude 同时 运行,并将它们的完整报告并排摆在一起。随后,一个第三个“评审”模型会阅读两者,并写出一份总结,解释两段 AI 在哪里达成一致、哪里出现分歧,以及每个模型分别捕捉到了对方没能注意到的哪些独特角度。直到现在,用户要对比 AI 研究工具的差异,仍不得不自己手动完成。

在 Critique 中,模型本质上是彼此 协作 ;而在 Council 中,模型则是彼此 竞争

Critique 是 Researcher 中的默认体验,而 Council 则要求你从选择器里选“Model Council”以启用并排模式。两项功能目前都向参与微软 Frontier 项目的用户开放——Frontier 是 Copilot 最新能力的早期访问渠道。访问这些功能需要微软 365 Copilot 许可证($30/用户/月),但用户也必须已报名 Frontier 才能使用。

图片:Microsoft

OpenAI 和微软有一项数十亿美元的合作伙伴关系,但微软的赌注在于:没有任何一个单一模型会长期稳坐第一,而且真正的价值在于编排层——它把任务路由到最适合的、由哪种模型组合来完成。

每日复盘通讯

每天从此刻的头条新闻开始,再加上原创专栏、播客、视频等内容。

你的邮箱

获取它!

获取它!

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论