1M AI Newsによるモニタリングによると、MicrosoftはFrontier(大企業向けのプレリリース試験プログラムで、参加者がCopilotの機能を正式にローンチする前に体験できるもの)を通じて、Microsoft 365 Copilot向けに2つの新しい機能を同時に立ち上げました。研究者(Copilotに内蔵されたディープリサーチエージェント)は、新たに2つのマルチモデル連携モードを導入しました。CritiqueとCouncilです。CritiqueはAnthropicとOpenAIのモデルと連携します。1つは計画、取得、下書きを担当し、もう1つはレビューと改善に特化しており、Autoはデフォルトで有効になっています。Councilは同様の仕組みで両方のモデルが完全なレポートを生成し、その後、別のレビュー用モデルがそれを要約します。MicrosoftはGPT-5.2を評価モデルとして使用しています(元の論文で示された3つの評価手法のうち最も厳格なもの)。これはDRACOベンチマーク(Perplexityの研究者が公開した10分野にまたがる100の複雑なリサーチ課題で構成)においてCritiqueをテストするためのものです。総合スコアは、ベンチマーク最良のシステムであるPerplexity Deep Research(Claude Opus 4.6を使用)より7.0ポイント高く、相対的な改善は13.88%に相当します。Critiqueは元のDRACO論文には含まれておらず、このデータは同一の評価プロトコルの下でMicrosoftが自己テストして得たものです。Copilot Coworkは、より長いマルチステップのタスクを対象としています。まず、目的に基づいて計画を生成し、その後、ツールとドキュメントにまたがって段階的に進行し、プロセス全体を通じて進捗を表示します。これにより、ユーザーはいつでも介入できます。MicrosoftはCapital Groupを初期のユースケースとして挙げており、プロジェクト計画、スケジューリング、納品物の作成、エグゼクティブ向けレビューの準備に用いられていると述べています。
Microsoft ResearcherはPerplexityの自己開発ベンチマークで優秀な成績を収める:Dual Model ReviewがFrontierに登場、CoworkがLong Task Agentをリリース
1M AI Newsによるモニタリングによると、MicrosoftはFrontier(大企業向けのプレリリース試験プログラムで、参加者がCopilotの機能を正式にローンチする前に体験できるもの)を通じて、Microsoft 365 Copilot向けに2つの新しい機能を同時に立ち上げました。研究者(Copilotに内蔵されたディープリサーチエージェント)は、新たに2つのマルチモデル連携モードを導入しました。CritiqueとCouncilです。CritiqueはAnthropicとOpenAIのモデルと連携します。1つは計画、取得、下書きを担当し、もう1つはレビューと改善に特化しており、Autoはデフォルトで有効になっています。Councilは同様の仕組みで両方のモデルが完全なレポートを生成し、その後、別のレビュー用モデルがそれを要約します。MicrosoftはGPT-5.2を評価モデルとして使用しています(元の論文で示された3つの評価手法のうち最も厳格なもの)。これはDRACOベンチマーク(Perplexityの研究者が公開した10分野にまたがる100の複雑なリサーチ課題で構成)においてCritiqueをテストするためのものです。総合スコアは、ベンチマーク最良のシステムであるPerplexity Deep Research(Claude Opus 4.6を使用)より7.0ポイント高く、相対的な改善は13.88%に相当します。Critiqueは元のDRACO論文には含まれておらず、このデータは同一の評価プロトコルの下でMicrosoftが自己テストして得たものです。Copilot Coworkは、より長いマルチステップのタスクを対象としています。まず、目的に基づいて計画を生成し、その後、ツールとドキュメントにまたがって段階的に進行し、プロセス全体を通じて進捗を表示します。これにより、ユーザーはいつでも介入できます。MicrosoftはCapital Groupを初期のユースケースとして挙げており、プロジェクト計画、スケジューリング、納品物の作成、エグゼクティブ向けレビューの準備に用いられていると述べています。