Perplexity revelou o método de pós-treinamento para o Agent de busca, o modelo baseado no Qwen3.5 supera o GPT-5.4 em precisão e custo.

robot
Geração de resumo em curso
ME News, 23 de abril (UTC+8), de acordo com a monitorização da Dongcha Beating, a equipa de investigação da Perplexity publicou um artigo técnico, divulgando o processo de pós-treinamento do seu agente de pesquisa na web. O processo baseia-se nos modelos open-source Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando um esquema de duas fases: primeiro, utiliza-se o ajuste fino supervisionado (SFT) para estabelecer comportamentos necessários para a implementação, como a adesão a instruções e a consistência linguística; depois, utiliza-se a aprendizagem por reforço com política online (RL) para otimizar a precisão da pesquisa e a eficiência do uso de ferramentas. A fase RL utiliza o algoritmo GRPO. Os dados de treino são compostos por duas partes: a primeira é um conjunto de dados de perguntas e respostas verificáveis multi-salto sintetizado internamente, partindo de consultas-semente internas, construindo questões que requerem 2 a 4 saltos de raciocínio por meio de cadeias de entidades, e verificando a unicidade das respostas com múltiplos resolvers independentes; a segunda são dados de diálogo gerais baseados numa rubrica, que convertem os requisitos de implementação, como a adesão a instruções e restrições de formato, em condições atómicas verificáveis objetivamente, para evitar a degradação dos comportamentos estabelecidos pelo SFT durante a fase RL. O núcleo do design de recompensa é a agregação com portão: apenas quando a linha de base está correta (resposta correta na QA ou cumprimento total da rubrica), a pontuação de preferência é considerada no cálculo, evitando que sinais de alta preferência ocultem erros factuais. A penalização de eficiência adota uma abordagem de ancoragem intra-grupo, usando as respostas corretas do mesmo grupo como referência, aplicando penalizações suaves para o excesso de chamadas de ferramentas e comprimento de geração. As avaliações mostram que o Qwen3.5-397B-SFT-RL pós-treinado tem o melhor desempenho em vários benchmarks de pesquisa. No FRAMES, com uma única chamada de ferramenta atinge 57.3%, 5.7 pontos percentuais acima do GPT-5.4 e 4.7 pontos percentuais acima do Sonnet 4.6. Com orçamento médio (4 chamadas de ferramenta) atinge 73.9%, com um custo de 2.0 cêntimos por consulta; nas mesmas condições, o GPT-5.4 tem 67.8% / 8.5 cêntimos, e o Sonnet 4.6 tem 62.4% / 15.3 cêntimos. Os dados de custo foram calculados com base nos preços públicos da API de cada fornecedor, sem incluir otimizações de cache. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário