微软研究员在Perplexity自主开发的基准测试中表现出色：在Frontier中进行双模型评审，Cowork推出长任务代理

空投黑洞 · 2026-03-31T11:52:18+00:00

微软为 Microsoft 365 Copilot 推出了新功能，包括 Critique 和 Council 模式，以增强协作。Critique 的表现显著优于基准，而 Copilot Cowork 简化了多步骤任务，帮助项目管理。

空投黑洞

2026-03-31 11:52:18

摘要生成中

根据 1M AI News 的监测，微软已通过 Frontier（一个面向企业用户的预发布试用项目，允许参与者在功能正式上线前体验 Copilot 功能）同时为 Microsoft 365 Copilot 推出了两项新能力。研究员（Copilot 内置的深度研究代理）引入了两种新的多模型协作模式：Critique 和 Council。Critique 与来自 Anthropic 和 OpenAI 的模型协作：一个负责规划、检索和起草，另一个专注于审阅和完善，并且默认启用了 Auto。Council 的运作方式类似，两种模型都会生成完整报告，然后再由一个独立的评审模型进行总结。微软使用 GPT-5.2 作为评估模型（在原论文的三种评估方法中最严格的那一种）来测试 Critique 在 DRACO 基准上的表现（该基准包含由 Perplexity 研究人员发布、覆盖 10 个领域的 100 个复杂研究问题）。总体得分比该基准中表现最好的系统 Perplexity Deep Research（使用 Claude Opus 4.6）高出 7.0 分，代表相对提升 13.88%。Critique 未包含在原始 DRACO 论文中，而这些数据是微软在相同评估协议下通过自测获得的。Copilot Cowork 面向更长的多步骤任务：它会先基于目标生成计划，然后在工具和文档之间按步骤推进，并在整个过程中展示进度，使用户可以在任意时刻介入。微软已提及 Capital Group 作为早期用例，称其已用于项目规划、排程、交付物创建以及准备高管评审。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

2人点赞了这条动态

赞赏
2
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
四月行情预测
33.65万热度
#
加密市场普遍上涨
6.38万热度
#
金银同步走强
34.08万热度
#
ClaudeCode50万行源代码泄漏
81.01万热度
#
特朗普释放停战信号
6.49万热度

热门 Gate Fun
查看更多

1
per
pear
市值:$2307.22持有人数:2
0.16%
2
888888888888
爆仓终结币
市值:$2286.2持有人数:1
0.00%
3
bababoyi
bababoyi
市值:$2265.51持有人数:1
0.00%
4
APRIL
APRILIA
市值:$2268.96持有人数:1
0.00%
5
mtt
mtt sports
市值:$0.1持有人数:1
0.00%

微软研究员在Perplexity自主开发的基准测试中表现出色：在Frontier中进行双模型评审，Cowork推出长任务代理

热门话题

四月行情预测

加密市场普遍上涨

金银同步走强

ClaudeCode50万行源代码泄漏

特朗普释放停战信号

热门 Gate Fun

per

pear

888888888888

爆仓终结币

bababoyi

bababoyi

APRIL

APRILIA

mtt

mtt sports

置顶