Coin界網のニュースによると、1M AI Newsのモニタリングでは、MicrosoftがFrontier(企業ユーザー向けの事前公開の先行体験プログラム。参加者は、正式にリリースされていないCopilot機能を先に試用できる)を通じて、2つの新しいMicrosoft 365 Copilotの能力を同時に公開した。Researcher(Copilot内蔵の深いリサーチAgent)に、Critique と Council の2種類のマルチモデル協調モードが追加された。Critiqueは、AnthropicとOpenAI傘下のモデルが協働する形で、1つが計画・検索・下書きを担当し、もう1つが専門的にレビューと推敲(せいこう)を行う。Autoが選択された場合、デフォルトで有効化される。Council も同様に2つのモデルを並行して動作させ、それぞれが完全なレポートを生成し、最後に別の審査モデルが相違点と共通点を取りまとめる。Microsoftは評価モデルとして GPT-5.2 を使用している(元論文の3種類の評価手法のうち、最も厳格なもの)。DRACOベンチマーク(Perplexityの研究者が公開した100問の複雑なリサーチ課題で、10分野をカバー)でCritiqueをテストし、総合スコアは、ベンチマーク中の最優秀システムである Perplexity Deep Research(Claude Opus 4.6 を使用)を7.0ポイント上回り、相対的に13.88%の向上となった。DRACOの元論文にはCritiqueは収録されておらず、Microsoftが同一の評価プロトコルで自社テストした結果として得られたデータだ。Copilot Coworkは、より長い複数ステップの作業に向けたものだ。まず目標に基づいて計画を生成し、その後、ツールやファイルをまたいで段階的に進めていき、その過程で進捗が表示される。ユーザーはいつでも途中に介入できる。Microsoftは、Capital Groupを早期試用の事例として挙げ、同社ではプロジェクト計画、スケジュール調整、納品物の制作、経営幹部の振り返り(リプレイ)の準備にすでに活用されていると述べている。
Microsoft ResearcherがPerplexity自社基準で勝利:二重モデル評価がFrontierに進出、Coworkが長期タスク代理を同期公開
Coin界網のニュースによると、1M AI Newsのモニタリングでは、MicrosoftがFrontier(企業ユーザー向けの事前公開の先行体験プログラム。参加者は、正式にリリースされていないCopilot機能を先に試用できる)を通じて、2つの新しいMicrosoft 365 Copilotの能力を同時に公開した。Researcher(Copilot内蔵の深いリサーチAgent)に、Critique と Council の2種類のマルチモデル協調モードが追加された。Critiqueは、AnthropicとOpenAI傘下のモデルが協働する形で、1つが計画・検索・下書きを担当し、もう1つが専門的にレビューと推敲(せいこう)を行う。Autoが選択された場合、デフォルトで有効化される。Council も同様に2つのモデルを並行して動作させ、それぞれが完全なレポートを生成し、最後に別の審査モデルが相違点と共通点を取りまとめる。Microsoftは評価モデルとして GPT-5.2 を使用している(元論文の3種類の評価手法のうち、最も厳格なもの)。DRACOベンチマーク(Perplexityの研究者が公開した100問の複雑なリサーチ課題で、10分野をカバー)でCritiqueをテストし、総合スコアは、ベンチマーク中の最優秀システムである Perplexity Deep Research(Claude Opus 4.6 を使用)を7.0ポイント上回り、相対的に13.88%の向上となった。DRACOの元論文にはCritiqueは収録されておらず、Microsoftが同一の評価プロトコルで自社テストした結果として得られたデータだ。Copilot Coworkは、より長い複数ステップの作業に向けたものだ。まず目標に基づいて計画を生成し、その後、ツールやファイルをまたいで段階的に進めていき、その過程で進捗が表示される。ユーザーはいつでも途中に介入できる。Microsoftは、Capital Groupを早期試用の事例として挙げ、同社ではプロジェクト計画、スケジュール調整、納品物の制作、経営幹部の振り返り(リプレイ)の準備にすでに活用されていると述べている。