Perplexity revelou o método de pós-treinamento do agente de busca, o modelo baseado no Qwen3.5 supera o GPT-5.4 em precisão e custo.

robot
Geração de resumo em curso
ME News informa que, em 23 de abril (UTC+8), segundo a monitorização da Beating, a equipa de investigação da Perplexity publicou um artigo técnico a divulgar o processo de pós-treinamento do seu agente de pesquisa na web.
O processo baseia-se nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando um esquema de duas fases: primeiro, utiliza-se a afinação supervisionada (SFT) para estabelecer comportamentos necessários à implementação, como o cumprimento de instruções e a consistência linguística; depois, utiliza-se a aprendizagem por reforço com política online (RL) para otimizar a precisão da pesquisa e a eficiência do uso de ferramentas.
A fase de RL utiliza o algoritmo GRPO, e os dados de treino são compostos por duas partes: a primeira é um conjunto de dados de perguntas e respostas verificáveis de múltiplos saltos, sintetizado internamente, que parte de consultas-semente internas e constrói perguntas que requerem raciocínio de 2 a 4 saltos através de cadeias de entidades, sendo a unicidade das respostas verificada por múltiplos resolvedores independentes; a segunda são dados de diálogo genéricos baseados em rubricas de avaliação, que convertem requisitos de implementação, como o cumprimento de instruções e restrições de formato, em condições atómicas verificáveis objetivamente, utilizados na fase de RL para evitar a degradação dos comportamentos estabelecidos pelo SFT.
O núcleo do design de recompensas é a agregação com portão: apenas quando a linha de base está correta (resposta correta à pergunta ou todos os critérios da rubrica são cumpridos) é que a pontuação de preferência é incluída no cálculo, evitando que sinais de alta preferência ocultem erros factuais. A penalização de eficiência adota uma ancoragem intra-grupo, usando as respostas corretas do mesmo grupo como referência, aplicando penalizações suaves ao número excessivo de chamadas de ferramentas e ao comprimento da geração.
A avaliação mostra que o Qwen3.5-397B-SFT-RL pós-treinado apresenta o melhor desempenho em vários referenciais de pesquisa. No FRAMES, com uma única chamada de ferramenta, atinge 57,3%, 5,7 pontos percentuais acima do GPT-5.4 e 4,7 pontos percentuais acima do Sonnet 4.6. Com um orçamento médio (4 chamadas de ferramenta), atinge 73,9%, com um custo de 2,0 cêntimos por consulta; nas mesmas condições, o GPT-5.4 apresenta 67,8% / 8,5 cêntimos, e o Sonnet 4.6 apresenta 62,4% / 15,3 cêntimos. Os dados de custos foram calculados com base nos preços públicos das APIs de cada fabricante, sem incluir otimizações de cache.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário