Perplexityが検索エージェントの後訓練方法を公開、Qwen3.5に基づくモデルが精度とコストでGPT-5.4を超える

robot
概要作成中
ME News 報道、4月23日(UTC+8)、動察 Beating の監測によると、Perplexity 研究チームが技術記事を発表し、そのウェブ検索エージェントのポストトレーニングプロセスを公開した。このプロセスはオープンソースモデル Qwen3.5-122B-A10B と Qwen3.5-397B-A17B をベースとし、2段階方式を採用:まず教師付きファインチューニング(SFT)で指示追従や言語一貫性などのデプロイに必要な動作を確立し、次にオンライン戦略強化学習(RL)で検索精度とツール使用効率を最適化する。RL フェーズでは GRPO アルゴリズムを使用し、訓練データは2つの部分から構成:1つは自社開発の合成マルチホップ検証可能 Q&A データセットで、内部シードクエリから出発し、エンティティチェーンを通じて2~4ホップの推論を必要とする問題を構築し、複数の独立したソルバーで回答の一意性を検証する。もう1つは評価基準(ルーブリック)に基づく汎用対話データで、指示追従やフォーマット制約などのデプロイ要求を客観的にチェック可能な原子条件に変換し、RL フェーズで SFT で確立された動作の退化を防ぐ。報酬設計の中核はゲート集約:ベースラインが正しい(Q&A で正答、または評価基準をすべて満たす)場合のみ、嗜好スコアが計算に参加し、高い嗜好シグナルが事実誤認を隠蔽するのを防ぐ。効率ペナルティはグループ内アンカー方式を採用し、同じグループの正しい回答を基準に、超過したツール呼び出し回数と生成長さに対してスムーズなペナルティを課す。評価によれば、ポストトレーニング後の Qwen3.5-397B-SFT-RL は複数の検索ベンチマークで最適な性能を示した。FRAMES では、1回のツール呼び出しで57.3%に達し、GPT-5.4 より5.7ポイント、Sonnet 4.6 より4.7ポイント高い。中程度の予算(ツール呼び出し4回)では73.9%に到達し、クエリ当たりコスト2.0セント。同じ条件下で GPT-5.4 は67.8% / 8.5セント、Sonnet 4.6 は62.4% / 15.3セント。コストデータは各ベンダーの公開 API 価格に基づいて計算しており、キャッシュ最適化は含まれていない。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし