PerplexityがSearch Agentの後訓練方法を公開、Qwen3.5をベースとしたモデルが精度とコストでGPT-5.4を上回る。

robot
概要作成中
ME News ニュース、4 月 23 日(UTC+8)、動察 Beating のモニタリングによると、Perplexity 研究チームが技術記事を発表し、Web 検索エージェントの後訓練プロセスを公開しました。このプロセスはオープンソースモデル Qwen3.5-122B-A10B および Qwen3.5-397B-A17B に基づき、2 段階方式を採用しています。まず教師ありファインチューニング (SFT) で指示追従や言語一貫性などのデプロイに必要な動作を確立し、次にオンライン方策強化学習 (RL) で検索精度とツール使用効率を最適化します。RL 段階では GRPO アルゴリズムを使用し、訓練データは 2 つの部分から構成されます。1 つは自社開発の合成マルチホップ検証可能な QA データセットで、内部シードクエリから出発し、エンティティチェーンを通じて 2~4 ホップの推論が必要な質問を構築し、複数の独立したソルバーで回答の一意性を検証します。もう 1 つはルーブリック (rubric) に基づく汎用対話データで、指示追従やフォーマット制約などのデプロイ要件を客観的にチェック可能な原子条件に変換し、RL 段階で SFT によって確立された動作の退化を防ぐために使用します。報酬設計の核心はゲーテッドアグリゲーションです。ベースラインが正しい (QA が正答、またはルーブリックのすべてを満たす) 場合のみ、選好スコアが計算に参加し、高い選好信号が事実誤認を隠蔽するのを防ぎます。効率ペナルティはグループ内アンカー方式を採用し、同じグループの正答を基準として、超過したツール呼び出し回数と生成長に対して平滑ペナルティを課します。評価によると、後訓練後の Qwen3.5-397B-SFT-RL は複数の検索ベンチマークで最良のパフォーマンスを示しました。FRAMES 上では、単一ツール呼び出しで 57.3% を達成し、GPT-5.4 より 5.7 パーセントポイント、Sonnet 4.6 より 4.7 パーセントポイント高い結果でした。中程度の予算 (4 回のツール呼び出し) では 73.9% に達し、クエリあたりのコストは 2.0 セント。同条件で GPT-5.4 は 67.8% / 8.5 セント、Sonnet 4.6 は 62.4% / 15.3 セントでした。コストデータは各ベンダーの公開 API 価格に基づいて計算されており、キャッシュ最適化は含まれていません。(出典: BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし