Perplexity опубликовал метод пост-обучения для поискового агента, модель на основе Qwen3.5 превзошла GPT-5.4 по точности и стоимости.

robot
Генерация тезисов в процессе
ME News消息,4月23日(UTC+8),据动察Beating监测,Perplexity研究团队发表技术文章,公开其网页搜索agent的后训练流程。该流程基于开源模型Qwen3.5-122B-A10B和Qwen3.5-397B-A17B,采用两阶段方案:先用监督微调(SFT)建立指令遵循、语言一致性等部署必需行为,再用在线策略强化学习(RL)优化搜索准确率和工具使用效率。RL阶段使用GRPO算法,训练数据由两部分组成:一是自研合成的多跳可验证问答数据集,从内部种子查询出发,通过实体链构造需要2到4跳推理的问题,并由多个独立求解器验证答案唯一性;二是基于评分标准(rubric)的通用对话数据,将指令遵循、格式约束等部署要求转化为可客观检查的原子条件,用于在RL阶段防止SFT建立的行为退化。奖励设计的核心是门控聚合:只有基线正确(问答答对或评分标准全部满足)时,偏好得分才参与计算,防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式,以同组正确回答为基准,对超出的工具调用次数和生成长度施加平滑惩罚。评测显示后训练后的Qwen3.5-397B-SFT-RL在多个搜索基准上表现最优。在FRAMES上,单次工具调用即达57.3%,比GPT-5.4高5.7个百分点,比Sonnet 4.6高4.7个百分点。中等预算(4次工具调用)下达73.9%,每查询成本2.0美分;同条件下GPT-5.4为67.8% / 8.5美分,Sonnet 4.6为62.4% / 15.3美分。成本数据按各厂商公开API定价计算,未含缓存优化。(来源:BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено