廣場
最新
熱門
新聞
我的主頁
發布
Perplexity公開搜索Agent後訓練方法,基於Qwen3.5的模型在準確率和成本上超過GPT-5.4
ME News
2026-06-26 06:30:33
關注
摘要生成中
ME News 消息,4 月 23 日(UTC+8),據 動察 Beating 監測,Perplexity 研究團隊發表技術文章,公開其網頁搜索 agent 的後訓練流程。該流程基於開源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B,採用兩階段方案:先用監督微調(SFT)建立指令遵循、語言一致性等部署必需行為,再用在線策略強化學習(RL)優化搜索準確率和工具使用效率。 RL 階段使用 GRPO 演算法,訓練數據由兩部分組成:一是自研合成的多跳可驗證問答數據集,從內部種子查詢出發,通過實體鏈構造需要 2 到 4 跳推理的問題,並由多個獨立求解器驗證答案唯一性;二是基於評分標準(rubric)的通用對話數據,將指令遵循、格式約束等部署要求轉化為可客觀檢查的原子條件,用於在 RL 階段防止 SFT 建立的行為退化。 獎勵設計的核心是門控聚合:只有基線正確(問答卷對或評分標準全部滿足)時,偏好得分才參與計算,防止高偏好信號掩蓋事實錯誤。效率懲罰採用組內錨定方式,以同組正確回答為基準,對超出的工具調用次數和生成長度施加平滑懲罰。 評測顯示後訓練後的 Qwen3.5-397B-SFT-RL 在多個搜索基準上表現最優。在 FRAMES 上,單次工具調用即達 57.3%,比 GPT-5.4 高 5.7 個百分點,比 Sonnet 4.6 高 4.7 個百分點。中等預算(4 次工具調用)下達 73.9%,每查詢成本 2.0 美分;同條件下 GPT-5.4 為 67.8% / 8.5 美分,Sonnet 4.6 為 62.4% / 15.3 美分。成本數據按各廠商公開 API 定價計算,未含緩存優化。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
0成本拿2股SK海力士
154.34萬 熱度
#
美光市值超越Meta躋身全美前十
16.79萬 熱度
#
法國VS挪威
32.21萬 熱度
#
美國5月PCE通膨升至4.1%創三年新高
55萬 熱度
#
USD1鏈上質押享年化9.48%
98.11萬 熱度
已置頂
網站地圖
Perplexity公開搜索Agent後訓練方法,基於Qwen3.5的模型在準確率和成本上超過GPT-5.4