🔥 WCTC S8 全球交易赛正式开赛!
8,000,000 USDT 超级奖池解锁开启
🏆 团队赛:上半场正式开启,预报名阶段 5,500+ 战队现已集结
交易量收益额双重比拼,解锁上半场 1,800,000 USDT 奖池
🏆 个人赛:现货、合约、TradFi、ETF、闪兑、跟单齐上阵
全场交易量比拼,瓜分 2,000,000 USDT 奖池
🏆 王者 PK 赛:零门槛参与,实时匹配享受战斗快感
收益率即时 PK,瓜分 1,600,000 USDT 奖池
活动时间:2026 年 4月 23 日 16:00:00 -2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即参与:https://www.gate.com/competition/wctc-s8
#WCTCS8
困惑度揭示了训练后搜索代理的方法,Qwen3.5模型在准确性和成本方面超越了GPT-5.4
根据东查贝廷的监测,Perplexity研究团队发布了一篇技术文章,详细介绍了其网页搜索代理的训练后流程。该流程基于开源模型Qwen3.5-122B-A10B和Qwen3.5-397B-A17B,采用两阶段方法:首先,使用监督微调(SFT)建立部署所需的行为,例如遵循指令和语言一致性;然后,在线策略强化学习(RL)优化搜索准确性和工具使用效率。
RL阶段使用GRPO算法,训练数据由两部分组成:第一部分是自研的多跳可验证问答数据集,它从内部种子查询构建需要2到4跳推理的问题,并使用多个独立求解器验证答案的唯一性;第二部分是基于评分标准(rubric)的通用对话数据,将诸如遵循指令和格式约束等部署要求转化为客观可检验的原子条件,以防止RL阶段中SFT期间已建立的行为发生退化。
奖励设计的核心是门控聚合:只有当基线正确(也就是问答正确或所有评分标准都满足)时,偏好分才会被纳入计算,从而防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方法:同一组中的正确答案作为基线,对因过多的工具调用次数和生成长度而产生的额外开销施加平滑惩罚。
评估显示,训练后Qwen3.5-397B-SFT-RL在多个搜索基准测试中表现最佳。在FRAMES上,单次工具调用的成功率为57.3%,比GPT-5.4高5.7个百分点,比Sonnet 4.6高4.7个百分点。在中等预算(4次工具调用)下,它达到73.9%,每次查询成本为2.0美分;在相同条件下,GPT-5.4为67.8%,成本为8.5美分,Sonnet 4.6为62.4%,成本为15.3美分。成本数据基于各供应商公开的API定价计算,不包括缓存优化。