マーズ・ファイナンスのニュースによると、マイクロソフトは月曜日にCopilot Researcher向けの新機能としてCritiqueとCouncilの2つを発表しました。これらはOpenAIのGPTとAnthropicのClaudeを組み合わせて同じ研究課題に使用します。Critiqueは連携の直列協働モードを採用しており、GPTが研究の計画、資料の検索、初稿の作成を担当し、その後Claudeが厳格な査読者として事実の正確性や引用の質を検証します。Councilは2つのモデルに並行して独立してレポートを生成させ、その後第三の裁判モデルが差異を比較し、意見の相違を要約します。医療、法律、テクノロジーなど10の分野にまたがる100件の複雑な研究課題を対象としたDRACOベンチマークテストにおいて、Critiqueを搭載したCopilotのスコアは57.4点で、2位を約14%上回り、Claude Opusが単独で実行した42.7点を大きく上回っています。
MicrosoftはGPTとClaudeの協働を可能にし、すべての競合製品を凌駕するパフォーマンスを実現
マーズ・ファイナンスのニュースによると、マイクロソフトは月曜日にCopilot Researcher向けの新機能としてCritiqueとCouncilの2つを発表しました。これらはOpenAIのGPTとAnthropicのClaudeを組み合わせて同じ研究課題に使用します。Critiqueは連携の直列協働モードを採用しており、GPTが研究の計画、資料の検索、初稿の作成を担当し、その後Claudeが厳格な査読者として事実の正確性や引用の質を検証します。Councilは2つのモデルに並行して独立してレポートを生成させ、その後第三の裁判モデルが差異を比較し、意見の相違を要約します。医療、法律、テクノロジーなど10の分野にまたがる100件の複雑な研究課題を対象としたDRACOベンチマークテストにおいて、Critiqueを搭載したCopilotのスコアは57.4点で、2位を約14%上回り、Claude Opusが単独で実行した42.7点を大きく上回っています。