Microsoft ResearcherはPerplexityの自己開発ベンチマークで優秀な成績を収める:Dual Model ReviewがFrontierに登場、CoworkがLong Task Agentをリリース

robot
概要作成中

1M AI Newsによるモニタリングによると、MicrosoftはFrontier(大企業向けのプレリリース試験プログラムで、参加者がCopilotの機能を正式にローンチする前に体験できるもの)を通じて、Microsoft 365 Copilot向けに2つの新しい機能を同時に立ち上げました。研究者(Copilotに内蔵されたディープリサーチエージェント)は、新たに2つのマルチモデル連携モードを導入しました。CritiqueとCouncilです。CritiqueはAnthropicとOpenAIのモデルと連携します。1つは計画、取得、下書きを担当し、もう1つはレビューと改善に特化しており、Autoはデフォルトで有効になっています。Councilは同様の仕組みで両方のモデルが完全なレポートを生成し、その後、別のレビュー用モデルがそれを要約します。MicrosoftはGPT-5.2を評価モデルとして使用しています(元の論文で示された3つの評価手法のうち最も厳格なもの)。これはDRACOベンチマーク(Perplexityの研究者が公開した10分野にまたがる100の複雑なリサーチ課題で構成)においてCritiqueをテストするためのものです。総合スコアは、ベンチマーク最良のシステムであるPerplexity Deep Research(Claude Opus 4.6を使用)より7.0ポイント高く、相対的な改善は13.88%に相当します。Critiqueは元のDRACO論文には含まれておらず、このデータは同一の評価プロトコルの下でMicrosoftが自己テストして得たものです。Copilot Coworkは、より長いマルチステップのタスクを対象としています。まず、目的に基づいて計画を生成し、その後、ツールとドキュメントにまたがって段階的に進行し、プロセス全体を通じて進捗を表示します。これにより、ユーザーはいつでも介入できます。MicrosoftはCapital Groupを初期のユースケースとして挙げており、プロジェクト計画、スケジューリング、納品物の作成、エグゼクティブ向けレビューの準備に用いられていると述べています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン