Microsoft ResearcherはPerplexityの自己開発ベンチマークで優秀な成績を収める：Dual Model ReviewがFrontierに登場、CoworkがLong Task Agentをリリース

AirdropBlackHole · 2026-03-31T11:52:18+00:00

Microsoftは、Microsoft 365 Copilotの新機能として、CritiqueおよびCouncilモードを導入し、コラボレーションを強化しています。Critiqueはベンチマークを大幅に上回り、Copilot Coworkは複数のステップを要するタスクを効率化し、プロジェクト管理を支援します。

AirdropBlackHole

2026-03-31 11:52:18

概要作成中

1M AI Newsによるモニタリングによると、MicrosoftはFrontier（大企業向けのプレリリース試験プログラムで、参加者がCopilotの機能を正式にローンチする前に体験できるもの）を通じて、Microsoft 365 Copilot向けに2つの新しい機能を同時に立ち上げました。研究者（Copilotに内蔵されたディープリサーチエージェント）は、新たに2つのマルチモデル連携モードを導入しました。CritiqueとCouncilです。CritiqueはAnthropicとOpenAIのモデルと連携します。1つは計画、取得、下書きを担当し、もう1つはレビューと改善に特化しており、Autoはデフォルトで有効になっています。Councilは同様の仕組みで両方のモデルが完全なレポートを生成し、その後、別のレビュー用モデルがそれを要約します。MicrosoftはGPT-5.2を評価モデルとして使用しています（元の論文で示された3つの評価手法のうち最も厳格なもの）。これはDRACOベンチマーク（Perplexityの研究者が公開した10分野にまたがる100の複雑なリサーチ課題で構成）においてCritiqueをテストするためのものです。総合スコアは、ベンチマーク最良のシステムであるPerplexity Deep Research（Claude Opus 4.6を使用）より7.0ポイント高く、相対的な改善は13.88%に相当します。Critiqueは元のDRACO論文には含まれておらず、このデータは同一の評価プロトコルの下でMicrosoftが自己テストして得たものです。Copilot Coworkは、より長いマルチステップのタスクを対象としています。まず、目的に基づいて計画を生成し、その後、ツールとドキュメントにまたがって段階的に進行し、プロセス全体を通じて進捗を表示します。これにより、ユーザーはいつでも介入できます。MicrosoftはCapital Groupを初期のユースケースとして挙げており、プロジェクト計画、スケジューリング、納品物の作成、エグゼクティブ向けレビューの準備に用いられていると述べています。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

2 いいね