Microsoft ResearcherがPerplexity自社基準で勝利:二重モデル評価がFrontierに進出、Coworkが長期タスク代理を同期公開

robot
概要作成中

Coin界網のニュースによると、1M AI Newsのモニタリングでは、MicrosoftがFrontier(企業ユーザー向けの事前公開の先行体験プログラム。参加者は、正式にリリースされていないCopilot機能を先に試用できる)を通じて、2つの新しいMicrosoft 365 Copilotの能力を同時に公開した。Researcher(Copilot内蔵の深いリサーチAgent)に、Critique と Council の2種類のマルチモデル協調モードが追加された。Critiqueは、AnthropicとOpenAI傘下のモデルが協働する形で、1つが計画・検索・下書きを担当し、もう1つが専門的にレビューと推敲(せいこう)を行う。Autoが選択された場合、デフォルトで有効化される。Council も同様に2つのモデルを並行して動作させ、それぞれが完全なレポートを生成し、最後に別の審査モデルが相違点と共通点を取りまとめる。Microsoftは評価モデルとして GPT-5.2 を使用している(元論文の3種類の評価手法のうち、最も厳格なもの)。DRACOベンチマーク(Perplexityの研究者が公開した100問の複雑なリサーチ課題で、10分野をカバー)でCritiqueをテストし、総合スコアは、ベンチマーク中の最優秀システムである Perplexity Deep Research(Claude Opus 4.6 を使用)を7.0ポイント上回り、相対的に13.88%の向上となった。DRACOの元論文にはCritiqueは収録されておらず、Microsoftが同一の評価プロトコルで自社テストした結果として得られたデータだ。Copilot Coworkは、より長い複数ステップの作業に向けたものだ。まず目標に基づいて計画を生成し、その後、ツールやファイルをまたいで段階的に進めていき、その過程で進捗が表示される。ユーザーはいつでも途中に介入できる。Microsoftは、Capital Groupを早期試用の事例として挙げ、同社ではプロジェクト計画、スケジュール調整、納品物の制作、経営幹部の振り返り(リプレイ)の準備にすでに活用されていると述べている。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン