根据东查贝廷的监测，Perplexity研究团队发布了一篇技术文章，详细介绍了其网页搜索代理的训练后流程。该流程基于开源模型Qwen3.5-122B-A10B和Qwen3.5-397B-A17B，采用两阶段方法：首先，使用监督微调(SFT)建立部署所需的行为，例如遵循指令和语言一致性；然后，在线策略强化学习(RL)优化搜索准确性和工具使用效率。

RL阶段使用GRPO算法，训练数据由两部分组成：第一部分是自研的多跳可验证问答数据集，它从内部种子查询构建需要2到4跳推理的问题，并使用多个独立求解器验证答案的唯一性；第二部分是基于评分标准(rubric)的通用对话数据，将诸如遵循指令和格式约束等部署要求转化为客观可检验的原子条件，以防止RL阶段中SFT期间已建立的行为发生退化。

奖励设计的核心是门控聚合：只有当基线正确(也就是问答正确或所有评分标准都满足)时，偏好分才会被纳入计算，从而防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方法：同一组中的正确答案作为基线，对因过多的工具调用次数和生成长度而产生的额外开销施加平滑惩罚。

评估显示，训练后Qwen3.5-397B-SFT-RL在多个搜索基准测试中表现最佳。在FRAMES上，单次工具调用的成功率为57.3%，比GPT-5.4高5.7个百分点，比Sonnet 4.6高4.7个百分点。在中等预算(4次工具调用)下，它达到73.9%，每次查询成本为2.0美分；在相同条件下，GPT-5.4为67.8%，成本为8.5美分，Sonnet 4.6为62.4%，成本为15.3美分。成本数据基于各供应商公开的API定价计算，不包括缓存优化。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
WCTC交易王PK
34.64万热度
#
加密市场小幅下跌
25.12万热度
#
Polymarket每日热点
68.78万热度
#
Strategy吸筹速度超挖矿两倍
13946.76万热度
#
GateCard一拍即付
1.96万热度

困惑度揭示了训练后搜索代理的方法，Qwen3.5模型在准确性和成本方面超越了GPT-5.4

热门话题

WCTC交易王PK

加密市场小幅下跌

Polymarket每日热点

Strategy吸筹速度超挖矿两倍

GateCard一拍即付

置顶