Perplexity divulga método de treinamento do Agente de busca, modelo baseado em Qwen3.5 supera GPT-5.4 em precisão e custo.

robot
Geração do resumo em andamento

ME News消息,4月23日(UTC+8),据动察Beating监测,Perplexity研究团队发表技术文章,公开其网页搜索agent的后训练流程。该流程基于开源模型Qwen3.5-122B-A10B和Qwen3.5-397B-A17B,采用两阶段方案:先用监督微调(SFT)建立指令遵循、语言一致性等部署必需行为,再用在线策略强化学习(RL)优化搜索准确率和工具使用效率。 RL阶段使用GRPO算法,训练数据由两部分组成:一是自研合成的多跳可验证问答数据集,从内部种子查询出发,通过实体链构造需要2到4跳推理的问题,并由多个独立求解器验证答案唯一性;二是基于评分标准(rubric)的通用对话数据,将指令遵循、格式约束等部署要求转化为可客观检查的原子条件,用于在RL阶段防止SFT建立的行为退化。 奖励设计的核心是门控聚合:只有基线正确(问答答对或评分标准全部满足)时,偏好得分才参与计算,防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式,以同组正确回答为基准,对超出的工具调用次数和生成长度施加平滑惩罚。 评测显示后训练后的Qwen3.5-397B-SFT-RL在多个搜索基准上表现最优。在FRAMES上,单次工具调用即达57.3%,比GPT-5.4高5.7个百分点,比Sonnet 4.6高4.7个百分点。中等预算(4次工具调用)下达73.9%,每查询成本2.0美分;同条件下GPT-5.4为67.8% / 8.5美分,Sonnet 4.6为62.4% / 15.3美分。成本数据按各厂商公开API定价计算,未含缓存优化。 (来源:BlockBeats)

A tradução para português (Brasil) é:

ME News消息,4月23日(UTC+8),据动察Beating监测,Perplexity研究团队发表技术文章,公开其网页搜索agent的后训练流程。该流程基于开源模型Qwen3.5-122B-A10B和Qwen3.5-397B-A17B,采用两阶段方案:先用监督微调(SFT)建立指令遵循、语言一致性等部署必需行为,再用在线策略强化学习(RL)优化搜索准确率和工具使用效率。 RL阶段使用GRPO算法,训练数据由两部分组成:一是自研合成的多跳可验证问答数据集,从内部种子查询出发,通过实体链构造需要2到4跳推理的问题,并由多个独立求解器验证答案唯一性;二是基于评分标准(rubric)的通用对话数据,将指令遵循、格式约束等部署要求转化为可客观检查的原子条件,用于在RL阶段防止SFT建立的行为退化。 奖励设计的核心是门控聚合:只有基线正确(问答答对或评分标准全部满足)时,偏好得分才参与计算,防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式,以同组正确回答为基准,对超出的工具调用次数和生成长度施加平滑惩罚。 评测显示后训练后的Qwen3.5-397B-SFT-RL在多个搜索基准上表现最优。在FRAMES上,单次工具调用即达57.3%,比GPT-5.4高5.7个百分点,比Sonnet 4.6高4.7个百分点。中等预算(4次工具调用)下达73.9%,每查询成本2.0美分;同条件下GPT-5.4为67.8% / 8.5美分,Sonnet 4.6为62.4% / 15.3美分。成本数据按各厂商公开API定价计算,未含缓存优化。 (来源:BlockBeats)

Nota: O texto de entrada já está em chinês, não em inglês. A instrução pede para traduzir do inglês para português brasileiro. Porém, o input fornecido está em chinês. Como a regra 5 diz "output only the translated text", e a regra 1 diz "Translate line-by-line", devo traduzir o chinês para português? O papel é de tradutor de criptomoeda, Web3, blockchain e finanças. O input é chinês, mas a tarefa especifica "Translate the input text into Portuguese (Brazilian)". Portanto, devo traduzir do chinês para o português. Vou fazer isso.

Mas note que a instrução diz "If the input is already translate, return it unchanged." Isso provavelmente significa se o input já estiver em português. O input está em chinês, então preciso traduzir.

Vou traduzir o texto chinês linha por linha. Como o texto tem quebras de linha naturais, vou manter a estrutura. O texto tem parágrafos que são separados por quebras de linha. Vou reproduzir o mesmo número de linhas.

Tradução:

Linha 1: ME News 消息,4 月 23 日(UTC+8),据 动察 Beating 监测,Perplexity 研究团队发表技术文章,公开其网页搜索 agent 的后训练流程。

Tradução: ME News informa, em 23 de abril (UTC+8), de acordo com monitoramento do Beating, a equipe de pesquisa da Perplexity publicou um artigo técnico, divulgando o processo de pós-treinamento de seu agente de busca na web.

Linha 2: 该流程基于开源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B,采用两阶段方案:先用监督微调(SFT)建立指令遵循、语言一致性等部署必需行为,再用在线策略强化学习(RL)优化搜索准确率和工具使用效率。

Tradução: O processo é baseado nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando um esquema de duas etapas: primeiro, usa-se ajuste fino supervisionado (SFT) para estabelecer comportamentos essenciais de implantação, como seguir instruções e consistência linguística; depois, utiliza-se aprendizado por reforço de política online (RL) para otimizar a precisão das buscas e a eficiência do uso de ferramentas.

Linha 3: RL 阶段使用 GRPO 算法,训练数据由两部分组成:一是自研合成的多跳可验证问答数据集,从内部种子查询出发,通过实体链构造需要 2 到 4 跳推理的问题,并由多个独立求解器验证答案唯一性;二是基于评分标准(rubric)的通用对话数据,将指令遵循、格式约束等部署要求转化为可客观检查的原子条件,用于在 RL 阶段防止 SFT 建立的行为退化。

Tradução: A fase RL utiliza o algoritmo GRPO. Os dados de treinamento consistem em duas partes: primeiro, um conjunto de dados de perguntas e respostas verificáveis de múltiplos saltos sintetizado internamente, partindo de consultas semente internas, construindo questões que exigem raciocínio de 2 a 4 saltos através de cadeias de entidades, e verificando a unicidade das respostas por meio de múltiplos solucionadores independentes; segundo, dados de diálogo geral baseados em rubrica (critérios de avaliação), que convertem requisitos de implantação como seguir instruções e restrições de formato em condições atômicas objetivamente verificáveis, usadas na fase RL para evitar a degradação dos comportamentos estabelecidos pelo SFT.

Linha 4: 奖励设计的核心是门控聚合:只有基线正确(问答答对或评分标准全部满足)时,偏好得分才参与计算,防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式,以同组正确回答为基准,对超出的工具调用次数和生成长度施加平滑惩罚。

Tradução: O núcleo do design de recompensa é a agregação com portão: apenas quando a linha de base está correta (resposta correta à pergunta ou todos os critérios da rubrica são atendidos) a pontuação de preferência entra no cálculo, evitando que sinais de alta preferência ocultem erros factuais. A penalidade de eficiência adota uma ancoragem dentro do grupo, usando as respostas corretas do mesmo grupo como referência, aplicando penalidades suaves para o número excessivo de chamadas de ferramentas e comprimento da geração.

Linha 5: 评测显示后训练后的 Qwen3.5-397B-SFT-RL 在多个搜索基准上表现最优。在 FRAMES 上,单次工具调用即达 57.3%,比 GPT-5.4 高 5.7 个百分点,比 Sonnet 4.6 高 4.7 个百分点。中等预算(4 次工具调用)下达 73.9%,每查询成本 2.0 美分;同条件下 GPT-5.4 为 67.8% / 8.5 美分,Sonnet 4.6 为 62.4% / 15.3 美分。成本数据按各厂商公开 API 定价计算,未含缓存优化。

Tradução: As avaliações mostram que o Qwen3.5-397B-SFT-RL pós-treinado apresenta o melhor desempenho em vários benchmarks de busca. No FRAMES, com uma única chamada de ferramenta, atinge 57,3%, superando o GPT-5.4 em 5,7 pontos percentuais e o Sonnet 4.6 em 4,7 pontos percentuais. Com orçamento moderado (4 chamadas de ferramenta), atinge 73,9%, com custo de 2,0 centavos de dólar por consulta; nas mesmas condições, o GPT-5.4 obtém 67,8% / 8,5 centavos, e o Sonnet 4.6 obtém 62,4% / 15,3 centavos. Os dados de custo são calculados com base nos preços públicos das APIs de cada fornecedor, sem incluir otimizações de cache.

Linha 6: (来源:BlockBeats)

Tradução: (Fonte: BlockBeats)

Note que o texto original tem quebras de linha após cada frase ou parágrafo. Vou manter exatamente o mesmo número de linhas. O input tem 6 linhas (considerando que cada parágrafo é uma linha, mas na verdade há quebras após cada parágrafo. Vou separar conforme o texto fornecido: ele tem uma linha inicial, depois uma linha em branco? Na verdade o texto é contínuo com quebras. Vou considerar cada parágrafo como uma linha. O input tem 6 parágrafos (incluindo a última linha de fonte). Vou produzir 6 linhas.

Vou juntar as traduções em uma única resposta, linha por linha.ME News informa, em 23 de abril (UTC+8), de acordo com monitoramento do Beating, a equipe de pesquisa da Perplexity publicou um artigo técnico, divulgando o processo de pós-treinamento de seu agente de busca na web. O processo é baseado nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando um esquema de duas etapas: primeiro, usa-se ajuste fino supervisionado (SFT) para estabelecer comportamentos essenciais de implantação, como seguir instruções e consistência linguística; depois, utiliza-se aprendizado por reforço de política online (RL) para otimizar a precisão das buscas e a eficiência do uso de ferramentas. A fase RL utiliza o algoritmo GRPO. Os dados de treinamento consistem em duas partes: primeiro, um conjunto de dados de perguntas e respostas verificáveis de múltiplos saltos sintetizado internamente, partindo de consultas semente internas, construindo questões que exigem raciocínio de 2 a 4 saltos através de cadeias de entidades, e verificando a unicidade das respostas por meio de múltiplos solucionadores independentes; segundo, dados de diálogo geral baseados em rubrica (critérios de avaliação), que convertem requisitos de implantação como seguir instruções e restrições de formato em condições atômicas objetivamente verificáveis, usadas na fase RL para evitar a degradação dos comportamentos estabelecidos pelo SFT. O núcleo do design de recompensa é a agregação com portão: apenas quando a linha de base está correta (resposta correta à pergunta ou todos os critérios da rubrica são atendidos) a pontuação de preferência entra no cálculo, evitando que sinais de alta preferência ocultem erros factuais. A penalidade de eficiência adota uma ancoragem dentro do grupo, usando as respostas corretas do mesmo grupo como referência, aplicando penalidades suaves para o número excessivo de chamadas de ferramentas e comprimento da geração. As avaliações mostram que o Qwen3.5-397B-SFT-RL pós-treinado apresenta o melhor desempenho em vários benchmarks de busca. No FRAMES, com uma única chamada de ferramenta, atinge 57,3%, superando o GPT-5.4 em 5,7 pontos percentuais e o Sonnet 4.6 em 4,7 pontos percentuais. Com orçamento moderado (4 chamadas de ferramenta), atinge 73,9%, com custo de 2,0 centavos de dólar por consulta; nas mesmas condições, o GPT-5.4 obtém 67,8% / 8,5 centavos, e o Sonnet 4.6 obtém 62,4% / 15,3 centavos. Os dados de custo são calculados com base nos preços públicos das APIs de cada fornecedor, sem incluir otimizações de cache. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários