A Perplexity divulgou o método de pós-treinamento do agente de busca, e o modelo baseado em Qwen3.5 supera o GPT-5.4 em precisão e custo.

robot
Geração do resumo em andamento

ME News notícias, 23 de abril (UTC+8), de acordo com o monitoramento do Beating, a equipe de pesquisa da Perplexity publicou um artigo técnico divulgando o pipeline de pós-treinamento de seu agente de busca na web.

O pipeline é baseado nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando uma abordagem em dois estágios: primeiro, usa Supervised Fine-Tuning (SFT) para estabelecer comportamentos necessários para implantação, como seguir instruções e consistência de linguagem; em seguida, usa Reinforcement Learning (RL) de política online para otimizar a precisão da busca e a eficiência no uso de ferramentas.

A fase de RL utiliza o algoritmo GRPO, com dados de treinamento compostos por duas partes: um conjunto de dados de perguntas e respostas verificáveis de múltiplos saltos sintetizado internamente, partindo de consultas semente internas e construindo perguntas que exigem raciocínio de 2 a 4 saltos por meio de cadeias de entidades, com a unicidade das respostas verificada por vários solucionadores independentes; e dados de diálogo geral baseados em rubricas, que convertem requisitos de implantação (como seguir instruções e restrições de formato) em condições atômicas verificáveis objetivamente, usadas na fase de RL para evitar a degradação dos comportamentos estabelecidos pelo SFT.

O núcleo do design de recompensa é a agregação com portão: somente quando a linha de base está correta (pergunta-resposta certa ou todos os critérios da rubrica atendidos) a pontuação de preferência participa do cálculo, evitando que sinais de alta preferência mascarem erros factuais. A penalidade de eficiência adota uma ancoragem dentro do grupo, usando respostas corretas do mesmo grupo como referência e aplicando penalidades suaves para o número excessivo de chamadas de ferramentas e comprimento de geração.

A avaliação mostra que o Qwen3.5-397B-SFT-RL pós-treinado obteve o melhor desempenho em vários benchmarks de busca. No FRAMES, com uma única chamada de ferramenta atinge 57,3%, 5,7 pontos percentuais a mais que o GPT-5.4 e 4,7 pontos percentuais a mais que o Sonnet 4.6. Com orçamento médio (4 chamadas de ferramenta) atinge 73,9%, com custo de 2,0 centavos de dólar por consulta; nas mesmas condições, GPT-5.4 é 67,8% / 8,5 centavos, Sonnet 4.6 é 62,4% / 15,3 centavos. Os dados de custo são calculados com base nos preços públicos das APIs de cada fabricante, sem incluir otimizações de cache.

(Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários