ME News消息，4月23日（UTC+8），据动察Beating监测，Perplexity研究团队发表技术文章，公开其网页搜索agent的后训练流程。该流程基于开源模型Qwen3.5-122B-A10B和Qwen3.5-397B-A17B，采用两阶段方案：先用监督微调（SFT）建立指令遵循、语言一致性等部署必需行为，再用在线策略强化学习（RL）优化搜索准确率和工具使用效率。RL阶段使用GRPO算法，训练数据由两部分组成：一是自研合成的多跳可验证问答数据集，从内部种子查询出发，通过实体链构造需要2到4跳推理的问题，并由多个独立求解器验证答案唯一性；二是基于评分标准（rubric）的通用对话数据，将指令遵循、格式约束等部署要求转化为可客观检查的原子条件，用于在RL阶段防止SFT建立的行为退化。奖励设计的核心是门控聚合：只有基线正确（问答答对或评分标准全部满足）时，偏好得分才参与计算，防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式，以同组正确回答为基准，对超出的工具调用次数和生成长度施加平滑惩罚。评测显示后训练后的Qwen3.5-397B-SFT-RL在多个搜索基准上表现最优。在FRAMES上，单次工具调用即达57.3%，比GPT-5.4高5.7个百分点，比Sonnet 4.6高4.7个百分点。中等预算（4次工具调用）下达73.9%，每查询成本2.0美分；同条件下GPT-5.4为67.8% / 8.5美分，Sonnet 4.6为62.4% / 15.3美分。成本数据按各厂商公开API定价计算，未含缓存优化。（来源：BlockBeats）

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
SKHynixTopsKOSPIByMarketCap
1,55M Популярность
#
MicronEarningsBeatExpectationsSharesRise
338,42K Популярность
#
IsraelStrikesIranBTCPlunges
63,72K Популярность
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
335,8K Популярность
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
556,19K Популярность

Закреплено

Карта сайта

Perplexity опубликовал метод пост-обучения для поискового агента, модель на основе Qwen3.5 превзошла GPT-5.4 по точности и стоимости.

Популярные темы

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закреплено