Método de treinamento posterior do agente de pesquisa pública do Perplexity, o modelo baseado no Qwen3.5 supera o GPT-5.4 em precisão e custo.

robot
Geração de resumo em curso
ME News notícias, 23 de abril (UTC+8), segundo a monitorização do Dongcha Beating, a equipa de investigação da Perplexity publicou um artigo técnico, divulgando o processo de pós-treinamento do seu agente de pesquisa web. O processo baseia-se nos modelos open-source Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando um esquema de duas fases: primeiro, utiliza-se a afinação supervisionada (SFT) para estabelecer comportamentos necessários à implementação, como o seguimento de instruções e a consistência linguística; depois, utiliza-se a aprendizagem por reforço com políticas online (RL) para otimizar a precisão da pesquisa e a eficiência no uso de ferramentas. A fase RL utiliza o algoritmo GRPO, e os dados de treino são compostos por duas partes: a primeira são conjuntos de dados de perguntas e respostas verificáveis e multi-salto desenvolvidos internamente, partindo de consultas de semente internas, construindo questões que requerem raciocínio de 2 a 4 saltos através de cadeias de entidades, e verificando a unicidade das respostas com múltiplos resolvedores independentes; a segunda são dados de conversação geral baseados em critérios (rubric), que transformam os requisitos de implementação, como o seguimento de instruções e restrições de formato, em condições atómicas objetivamente verificáveis, utilizados para evitar a degradação dos comportamentos estabelecidos pelo SFT durante a fase RL. O núcleo do design de recompensa é a agregação com portão: apenas quando a linha de base está correta (resposta correta à pergunta ou todos os critérios cumpridos) é que a pontuação de preferência participa no cálculo, evitando que sinais de alta preferência ocultem erros factuais. A penalidade de eficiência utiliza um método de ancoragem intra-grupo, tomando as respostas corretas do mesmo grupo como referência, aplicando penalizações suaves ao número de chamadas de ferramentas e ao comprimento da geração que excedem o esperado. As avaliações mostram que o Qwen3.5-397B-SFT-RL pós-treinado apresenta o melhor desempenho em múltiplos benchmarks de pesquisa. No FRAMES, com uma única chamada de ferramenta atinge 57,3%, superando o GPT-5.4 em 5,7 pontos percentuais e o Sonnet 4.6 em 4,7 pontos percentuais. Com orçamento médio (4 chamadas de ferramenta) atinge 73,9%, com um custo de 2,0 cêntimos por consulta; nas mesmas condições, o GPT-5.4 tem 67,8% / 8,5 cêntimos e o Sonnet 4.6 tem 62,4% / 15,3 cêntimos. Os dados de custo foram calculados com base nos preços públicos da API de cada fornecedor, sem incluir otimizações de cache. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário