動態監測 Beating 監測、Perplexity 研究チームは技術記事を発表し、ウェブ検索エージェントの後訓練プロセスを公開した。 このプロセスはオープンソースモデル Qwen3.5-122B-A10B と Qwen3.5-397B-A17B に基づき、二段階の方案を採用している: まず、指令遵守や言語一貫性などの展開に必要な行動を確立するために監督微調整(SFT)を用い、その後、オンライン戦略強化学習(RL)を用いて検索精度とツール使用効率を最適化する。 RL段階では GRPO アルゴリズムを使用し、訓練データは二つの部分から構成される: 一つは自社開発の合成多跳検証可能質問応答データセットで、内部種子クエリから出発し、实体链を構築して2から4跳の推論を必要とする問題を作成し、複数の独立した解決器によって答えの一意性を検証する; もう一つは評価基準(ルーブリック)に基づく汎用対話データで、指令遵守やフォーマット制約などの展開要件を客観的に検査可能な原子条件に変換し、RL段階でSFTによる行動の退化を防ぐために用いる。 報酬設計の核心はゲート制御による集約:基準が正しい(質問応答ペアや評価基準がすべて満たされている)場合のみ、偏好スコアが計算に参加し、事実誤りを隠す高偏好信号を防止する。 効率性のペナルティはグループ内のアンカー方式を採用し、同じグループの正答を基準として、超過したツール呼び出し回数や生成長に対して平滑なペナルティを課す。 評価結果は、後訓練された Qwen3.5-397B-SFT-RL が複数の検索基準で最良の性能を示したことを示している。 FRAMES では、単一のツール呼び出しで57.3%に達し、GPT-5.4より5.7ポイント高く、Sonnet 4.6より4.7ポイント高い。 中程度の予算(4回のツール呼び出し)では73.9%、各クエリのコストは2.0セント;同条件のGPT-5.4は67.8% / 8.5セント、Sonnet 4.6は62.4% / 15.3セントである。 コストデータは各メーカーの公開API価格に基づき計算されており、キャッシュ最適化は含まれていない。
Perplexity公開検索エージェント後の訓練方法、Qwen3.5に基づくモデルは正確さとコストの面でGPT-5.4を上回る
動態監測 Beating 監測、Perplexity 研究チームは技術記事を発表し、ウェブ検索エージェントの後訓練プロセスを公開した。
このプロセスはオープンソースモデル Qwen3.5-122B-A10B と Qwen3.5-397B-A17B に基づき、二段階の方案を採用している:
まず、指令遵守や言語一貫性などの展開に必要な行動を確立するために監督微調整(SFT)を用い、その後、オンライン戦略強化学習(RL)を用いて検索精度とツール使用効率を最適化する。
RL段階では GRPO アルゴリズムを使用し、訓練データは二つの部分から構成される:
一つは自社開発の合成多跳検証可能質問応答データセットで、内部種子クエリから出発し、实体链を構築して2から4跳の推論を必要とする問題を作成し、複数の独立した解決器によって答えの一意性を検証する;
もう一つは評価基準(ルーブリック)に基づく汎用対話データで、指令遵守やフォーマット制約などの展開要件を客観的に検査可能な原子条件に変換し、RL段階でSFTによる行動の退化を防ぐために用いる。
報酬設計の核心はゲート制御による集約:基準が正しい(質問応答ペアや評価基準がすべて満たされている)場合のみ、偏好スコアが計算に参加し、事実誤りを隠す高偏好信号を防止する。
効率性のペナルティはグループ内のアンカー方式を採用し、同じグループの正答を基準として、超過したツール呼び出し回数や生成長に対して平滑なペナルティを課す。
評価結果は、後訓練された Qwen3.5-397B-SFT-RL が複数の検索基準で最良の性能を示したことを示している。
FRAMES では、単一のツール呼び出しで57.3%に達し、GPT-5.4より5.7ポイント高く、Sonnet 4.6より4.7ポイント高い。
中程度の予算(4回のツール呼び出し)では73.9%、各クエリのコストは2.0セント;同条件のGPT-5.4は67.8% / 8.5セント、Sonnet 4.6は62.4% / 15.3セントである。
コストデータは各メーカーの公開API価格に基づき計算されており、キャッシュ最適化は含まれていない。