广场
最新
热门
资讯
我的主页
发布
Perplexity公开搜索Agent后训练方法,基于Qwen3.5的模型在准确率和成本上超过GPT-5.4
ME News
2026-06-26 12:47:03
关注
摘要生成中
ME News 消息,4 月 23 日(UTC+8),据 动察 Beating 监测,Perplexity 研究团队发表技术文章,公开其网页搜索 agent 的后训练流程。该流程基于开源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B,采用两阶段方案:先用监督微调(SFT)建立指令遵循、语言一致性等部署必需行为,再用在线策略强化学习(RL)优化搜索准确率和工具使用效率。 RL 阶段使用 GRPO 算法,训练数据由两部分组成:一是自研合成的多跳可验证问答数据集,从内部种子查询出发,通过实体链构造需要 2 到 4 跳推理的问题,并由多个独立求解器验证答案唯一性;二是基于评分标准(rubric)的通用对话数据,将指令遵循、格式约束等部署要求转化为可客观检查的原子条件,用于在 RL 阶段防止 SFT 建立的行为退化。 奖励设计的核心是门控聚合:只有基线正确(问答答对或评分标准全部满足)时,偏好得分才参与计算,防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式,以同组正确回答为基准,对超出的工具调用次数和生成长度施加平滑惩罚。 评测显示后训练后的 Qwen3.5-397B-SFT-RL 在多个搜索基准上表现最优。在 FRAMES 上,单次工具调用即达 57.3%,比 GPT-5.4 高 5.7 个百分点,比 Sonnet 4.6 高 4.7 个百分点。中等预算(4 次工具调用)下达 73.9%,每查询成本 2.0 美分;同条件下 GPT-5.4 为 67.8% / 8.5 美分,Sonnet 4.6 为 62.4% / 15.3 美分。成本数据按各厂商公开 API 定价计算,未含缓存优化。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
0成本拿2股SK海力士
154.34万 热度
#
美光市值超越Meta跻身全美前十
16.79万 热度
#
法国VS挪威
32.21万 热度
#
美国5月PCE通胀升至4.1%创三年新高
55万 热度
#
USD1链上质押享年化9.48%
98.11万 热度
置顶
网站地图
Perplexity公开搜索Agent后训练方法,基于Qwen3.5的模型在准确率和成本上超过GPT-5.4