Perplexityが検索エージェントの後訓練方法を公開、Qwen3.5ベースのモデルが精度とコストでGPT-5.4を上回る

robot
概要作成中
ME News メッセージ、4月23日(UTC+8)、動察 Beating のモニタリングによると、Perplexity 研究チームが技術記事を発表し、そのウェブ検索エージェントのポストトレーニングプロセスを公開した。
該プロセスはオープンソースモデル Qwen3.5-122B-A10B および Qwen3.5-397B-A17B に基づいており、2段階のアプローチを採用している:まず教師ありファインチューニング(SFT)で指示追従、言語一貫性などのデプロイに必要な動作を確立し、次にオンラインポリシー強化学習(RL)で検索精度とツール使用効率を最適化する。
RL 段階では GRPO アルゴリズムを使用し、訓練データは2つの部分から構成される:1つは自社開発の合成マルチホップ検証可能なQAデータセットであり、内部シードクエリから出発してエンティティチェーンを介して2から4ホップの推論を必要とする問題を構築し、複数の独立したソルバーで回答の一意性を検証する;もう1つは評価基準(ルーブリック)に基づく汎用対話データであり、指示追従、フォーマット制約などのデプロイ要件を客観的にチェック可能な原子条件に変換し、RL段階でSFTが確立した動作の退化を防ぐために使用される。
報酬設計の核心はゲーテッドアグリゲーションである:ベースラインが正しい(QAに正解または評価基準をすべて満たす)場合のみ、選好スコアが計算に参加し、高い選好シグナルが事実誤認を覆い隠すのを防ぐ。
効率ペナルティはグループ内アンカー方式を採用し、同じグループの正解を基準として、超過したツール呼び出し回数と生成長さに対して平滑ペナルティを課す。
評価によると、ポストトレーニング後の Qwen3.5-397B-SFT-RL は複数の検索ベンチマークで最良のパフォーマンスを示した。
FRAMES では、1回のツール呼び出しで57.3%に達し、GPT-5.4 より5.7パーセンテージポイント高く、Sonnet 4.6 より4.7パーセンテージポイント高い。
中程度の予算(4回のツール呼び出し)では73.9%に達し、クエリあたりのコストは2.0セント;同じ条件下で GPT-5.4 は67.8% / 8.5セント、Sonnet 4.6 は62.4% / 15.3セント。
コストデータは各ベンダーの公開API価格設定に基づいて計算され、キャッシュ最適化は含まれていない。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし