Perplexityは、検索エージェントの事後学習方法を明らかにし、Qwen3.5モデルは精度とコストの両面でGPT-5.4を上回る

ドンチャビーティングによる監視によると、Perplexity研究チームは、そのウェブ検索エージェントの事後トレーニングプロセスの詳細を記した技術記事を公開しました。このプロセスは、オープンソースモデルのQwen3.5-122B-A10BとQwen3.5-397B-A17Bに基づいており、二段階のアプローチを採用しています。まず、指示遵守や言語の一貫性などの展開に必要な動作を確立するために、監督付き微調整(SFT)を行います。次に、オンラインポリシー強化学習(RL)を用いて検索精度とツール使用効率を最適化します。RLフェーズではGRPOアルゴリズムを利用し、トレーニングデータは二つの部分から構成されます。第一に、内部のシードクエリから2〜4ホップの推論を必要とする質問を構築し、複数の独立した解答者によって回答の一意性を検証する自己開発の多ホップ検証可能な質問回答データセット。第二に、スコア基準(ルーブリック)に基づく一般的な対話データであり、指示遵守やフォーマット制約といった展開要件を客観的に検査可能な原子条件に変換し、SFT中に確立された動作の劣化を防ぎます。報酬設計の核心はゲート付き集約です。基準が正しい場合(すなわち、質問回答が正しいか、すべてのスコア基準を満たす場合)にのみ、優先スコアが計算に考慮され、高い優先信号が事実誤認を隠すのを防ぎます。効率性のペナルティは、同一グループ内の正解を基準として滑らかなペナルティを課すグループ内アンカー法を用いて適用されます。評価の結果、事後トレーニングされたQwen3.5-397B-SFT-RLは複数の検索ベンチマークで最適な性能を示しました。FRAMESでは、単一のツール呼び出しで57.3%を達成し、GPT-5.4の5.7ポイント上回り、Sonnet 4.6の4.7ポイント上回っています。中程度の予算(4ツール呼び出し)では、73.9%に達し、クエリあたりのコストは2.0セントです。同じ条件下で、GPT-5.4は67.8%を8.5セントで達成し、Sonnet 4.6は62.4%を15.3セントで達成しています。コストデータは、各ベンダーの公開API料金に基づいて計算されており、キャッシュ最適化は除外されています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン