ME News消息，4月23日（UTC+8），据动察Beating监测，Perplexity研究团队发表技术文章，公开其网页搜索agent的后训练流程。该流程基于开源模型Qwen3.5-122B-A10B和Qwen3.5-397B-A17B，采用两阶段方案：先用监督微调（SFT）建立指令遵循、语言一致性等部署必需行为，再用在线策略强化学习（RL）优化搜索准确率和工具使用效率。 RL阶段使用GRPO算法，训练数据由两部分组成：一是自研合成的多跳可验证问答数据集，从内部种子查询出发，通过实体链构造需要2到4跳推理的问题，并由多个独立求解器验证答案唯一性；二是基于评分标准（rubric）的通用对话数据，将指令遵循、格式约束等部署要求转化为可客观检查的原子条件，用于在RL阶段防止SFT建立的行为退化。奖励设计的核心是门控聚合：只有基线正确（问答答对或评分标准全部满足）时，偏好得分才参与计算，防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式，以同组正确回答为基准，对超出的工具调用次数和生成长度施加平滑惩罚。评测显示后训练后的Qwen3.5-397B-SFT-RL在多个搜索基准上表现最优。在FRAMES上，单次工具调用即达57.3%，比GPT-5.4高5.7个百分点，比Sonnet 4.6高4.7个百分点。中等预算（4次工具调用）下达73.9%，每查询成本2.0美分；同条件下GPT-5.4为67.8% / 8.5美分，Sonnet 4.6为62.4% / 15.3美分。成本数据按各厂商公开API定价计算，未含缓存优化。（来源：BlockBeats）

A tradução para português (Brasil) é:

Nota: O texto de entrada já está em chinês, não em inglês. A instrução pede para traduzir do inglês para português brasileiro. Porém, o input fornecido está em chinês. Como a regra 5 diz "output only the translated text", e a regra 1 diz "Translate line-by-line", devo traduzir o chinês para português? O papel é de tradutor de criptomoeda, Web3, blockchain e finanças. O input é chinês, mas a tarefa especifica "Translate the input text into Portuguese (Brazilian)". Portanto, devo traduzir do chinês para o português. Vou fazer isso.

Mas note que a instrução diz "If the input is already translate, return it unchanged." Isso provavelmente significa se o input já estiver em português. O input está em chinês, então preciso traduzir.

Vou traduzir o texto chinês linha por linha. Como o texto tem quebras de linha naturais, vou manter a estrutura. O texto tem parágrafos que são separados por quebras de linha. Vou reproduzir o mesmo número de linhas.

Tradução:

Linha 1: ME News 消息，4 月 23 日（UTC+8），据动察 Beating 监测，Perplexity 研究团队发表技术文章，公开其网页搜索 agent 的后训练流程。

Tradução: ME News informa, em 23 de abril (UTC+8), de acordo com monitoramento do Beating, a equipe de pesquisa da Perplexity publicou um artigo técnico, divulgando o processo de pós-treinamento de seu agente de busca na web.

Linha 2: 该流程基于开源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B，采用两阶段方案：先用监督微调（SFT）建立指令遵循、语言一致性等部署必需行为，再用在线策略强化学习（RL）优化搜索准确率和工具使用效率。

Tradução: O processo é baseado nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando um esquema de duas etapas: primeiro, usa-se ajuste fino supervisionado (SFT) para estabelecer comportamentos essenciais de implantação, como seguir instruções e consistência linguística; depois, utiliza-se aprendizado por reforço de política online (RL) para otimizar a precisão das buscas e a eficiência do uso de ferramentas.

Linha 3: RL 阶段使用 GRPO 算法，训练数据由两部分组成：一是自研合成的多跳可验证问答数据集，从内部种子查询出发，通过实体链构造需要 2 到 4 跳推理的问题，并由多个独立求解器验证答案唯一性；二是基于评分标准（rubric）的通用对话数据，将指令遵循、格式约束等部署要求转化为可客观检查的原子条件，用于在 RL 阶段防止 SFT 建立的行为退化。

Tradução: A fase RL utiliza o algoritmo GRPO. Os dados de treinamento consistem em duas partes: primeiro, um conjunto de dados de perguntas e respostas verificáveis de múltiplos saltos sintetizado internamente, partindo de consultas semente internas, construindo questões que exigem raciocínio de 2 a 4 saltos através de cadeias de entidades, e verificando a unicidade das respostas por meio de múltiplos solucionadores independentes; segundo, dados de diálogo geral baseados em rubrica (critérios de avaliação), que convertem requisitos de implantação como seguir instruções e restrições de formato em condições atômicas objetivamente verificáveis, usadas na fase RL para evitar a degradação dos comportamentos estabelecidos pelo SFT.

Linha 4: 奖励设计的核心是门控聚合：只有基线正确（问答答对或评分标准全部满足）时，偏好得分才参与计算，防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式，以同组正确回答为基准，对超出的工具调用次数和生成长度施加平滑惩罚。

Tradução: O núcleo do design de recompensa é a agregação com portão: apenas quando a linha de base está correta (resposta correta à pergunta ou todos os critérios da rubrica são atendidos) a pontuação de preferência entra no cálculo, evitando que sinais de alta preferência ocultem erros factuais. A penalidade de eficiência adota uma ancoragem dentro do grupo, usando as respostas corretas do mesmo grupo como referência, aplicando penalidades suaves para o número excessivo de chamadas de ferramentas e comprimento da geração.

Linha 5: 评测显示后训练后的 Qwen3.5-397B-SFT-RL 在多个搜索基准上表现最优。在 FRAMES 上，单次工具调用即达 57.3%，比 GPT-5.4 高 5.7 个百分点，比 Sonnet 4.6 高 4.7 个百分点。中等预算（4 次工具调用）下达 73.9%，每查询成本 2.0 美分；同条件下 GPT-5.4 为 67.8% / 8.5 美分，Sonnet 4.6 为 62.4% / 15.3 美分。成本数据按各厂商公开 API 定价计算，未含缓存优化。

Tradução: As avaliações mostram que o Qwen3.5-397B-SFT-RL pós-treinado apresenta o melhor desempenho em vários benchmarks de busca. No FRAMES, com uma única chamada de ferramenta, atinge 57,3%, superando o GPT-5.4 em 5,7 pontos percentuais e o Sonnet 4.6 em 4,7 pontos percentuais. Com orçamento moderado (4 chamadas de ferramenta), atinge 73,9%, com custo de 2,0 centavos de dólar por consulta; nas mesmas condições, o GPT-5.4 obtém 67,8% / 8,5 centavos, e o Sonnet 4.6 obtém 62,4% / 15,3 centavos. Os dados de custo são calculados com base nos preços públicos das APIs de cada fornecedor, sem incluir otimizações de cache.

Linha 6: （来源：BlockBeats）

Tradução: (Fonte: BlockBeats)

Note que o texto original tem quebras de linha após cada frase ou parágrafo. Vou manter exatamente o mesmo número de linhas. O input tem 6 linhas (considerando que cada parágrafo é uma linha, mas na verdade há quebras após cada parágrafo. Vou separar conforme o texto fornecido: ele tem uma linha inicial, depois uma linha em branco? Na verdade o texto é contínuo com quebras. Vou considerar cada parágrafo como uma linha. O input tem 6 parágrafos (incluindo a última linha de fonte). Vou produzir 6 linhas.

Vou juntar as traduções em uma única resposta, linha por linha.ME News informa, em 23 de abril (UTC+8), de acordo com monitoramento do Beating, a equipe de pesquisa da Perplexity publicou um artigo técnico, divulgando o processo de pós-treinamento de seu agente de busca na web. O processo é baseado nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando um esquema de duas etapas: primeiro, usa-se ajuste fino supervisionado (SFT) para estabelecer comportamentos essenciais de implantação, como seguir instruções e consistência linguística; depois, utiliza-se aprendizado por reforço de política online (RL) para otimizar a precisão das buscas e a eficiência do uso de ferramentas. A fase RL utiliza o algoritmo GRPO. Os dados de treinamento consistem em duas partes: primeiro, um conjunto de dados de perguntas e respostas verificáveis de múltiplos saltos sintetizado internamente, partindo de consultas semente internas, construindo questões que exigem raciocínio de 2 a 4 saltos através de cadeias de entidades, e verificando a unicidade das respostas por meio de múltiplos solucionadores independentes; segundo, dados de diálogo geral baseados em rubrica (critérios de avaliação), que convertem requisitos de implantação como seguir instruções e restrições de formato em condições atômicas objetivamente verificáveis, usadas na fase RL para evitar a degradação dos comportamentos estabelecidos pelo SFT. O núcleo do design de recompensa é a agregação com portão: apenas quando a linha de base está correta (resposta correta à pergunta ou todos os critérios da rubrica são atendidos) a pontuação de preferência entra no cálculo, evitando que sinais de alta preferência ocultem erros factuais. A penalidade de eficiência adota uma ancoragem dentro do grupo, usando as respostas corretas do mesmo grupo como referência, aplicando penalidades suaves para o número excessivo de chamadas de ferramentas e comprimento da geração. As avaliações mostram que o Qwen3.5-397B-SFT-RL pós-treinado apresenta o melhor desempenho em vários benchmarks de busca. No FRAMES, com uma única chamada de ferramenta, atinge 57,3%, superando o GPT-5.4 em 5,7 pontos percentuais e o Sonnet 4.6 em 4,7 pontos percentuais. Com orçamento moderado (4 chamadas de ferramenta), atinge 73,9%, com custo de 2,0 centavos de dólar por consulta; nas mesmas condições, o GPT-5.4 obtém 67,8% / 8,5 centavos, e o Sonnet 4.6 obtém 62,4% / 15,3 centavos. Os dados de custo são calculados com base nos preços públicos das APIs de cada fornecedor, sem incluir otimizações de cache. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
SKHynixTopsKOSPIByMarketCap
1,55M Popularidade
#
MicronEarningsBeatExpectationsSharesRise
338,42K Popularidade
#
IsraelStrikesIranBTCPlunges
63,72K Popularidade
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
337,64K Popularidade
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
556,33K Popularidade

Fixado

sitemap

Perplexity divulga método de treinamento do Agente de busca, modelo baseado em Qwen3.5 supera GPT-5.4 em precisão e custo.

Tendências

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado