A Perplexity publicou o método de treinamento pós-treinamento do Agent, e o modelo baseado no Qwen3.5 supera o GPT-5.4 em precisão e custo.

robot
Geração do resumo em andamento
ME News informa que, em 23 de abril (UTC+8), de acordo com o monitoramento da Beating, a equipe de pesquisa da Perplexity publicou um artigo técnico revelando o processo de pós-treinamento de seu agente de busca na web.
O processo baseia-se nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando um esquema de duas etapas: primeiro, utiliza-se o ajuste fino supervisionado (SFT) para estabelecer comportamentos necessários para implantação, como obediência a instruções e consistência linguística; em seguida, utiliza-se o aprendizado por reforço de política online (RL) para otimizar a precisão da busca e a eficiência no uso de ferramentas.
A fase de RL utiliza o algoritmo GRPO, e os dados de treinamento consistem em duas partes: a primeira é um conjunto de dados de perguntas e respostas verificáveis de múltiplos saltos, sintetizado internamente, partindo de consultas semente internas, construindo perguntas que exigem raciocínio de 2 a 4 saltos por meio de cadeias de entidades, e a unicidade das respostas é verificada por múltiplos solucionadores independentes; a segunda são dados de diálogo geral baseados em rubricas, que convertem requisitos de implantação, como obediência a instruções e restrições de formato, em condições atômicas verificáveis objetivamente, usadas na fase de RL para evitar a degradação dos comportamentos estabelecidos pelo SFT.
O núcleo do design de recompensa é a agregação com portão: somente quando a linha de base está correta (pergunta respondida corretamente ou todos os critérios da rubrica atendidos) a pontuação de preferência participa do cálculo, evitando que sinais de alta preferência ocultem erros factuais.
A penalidade de eficiência adota uma abordagem de ancoragem dentro do grupo: com base nas respostas corretas do mesmo grupo, aplica penalidades suaves no número de chamadas de ferramentas e no comprimento da geração que excederem o limite.
As avaliações mostram que o Qwen3.5-397B-SFT-RL pós-treinado apresentou o melhor desempenho em vários benchmarks de busca.
No FRAMES, com uma única chamada de ferramenta, atingiu 57,3%, 5,7 pontos percentuais a mais que o GPT-5.4 e 4,7 pontos percentuais a mais que o Sonnet 4.6.
Com orçamento moderado (4 chamadas de ferramenta), atinge 73,9%, com custo de 2,0 centavos de dólar por consulta; nas mesmas condições, GPT-5.4 tem 67,8% / 8,5 centavos, e Sonnet 4.6 tem 62,4% / 15,3 centavos.
Os dados de custo são calculados com base nos preços públicos de API de cada fornecedor, sem incluir otimizações de cache.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários