ME News notícias, 23 de abril (UTC+8), de acordo com o monitoramento do Beating, a equipe de pesquisa da Perplexity publicou um artigo técnico divulgando o pipeline de pós-treinamento de seu agente de busca na web.

O pipeline é baseado nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando uma abordagem em dois estágios: primeiro, usa Supervised Fine-Tuning (SFT) para estabelecer comportamentos necessários para implantação, como seguir instruções e consistência de linguagem; em seguida, usa Reinforcement Learning (RL) de política online para otimizar a precisão da busca e a eficiência no uso de ferramentas.

A fase de RL utiliza o algoritmo GRPO, com dados de treinamento compostos por duas partes: um conjunto de dados de perguntas e respostas verificáveis de múltiplos saltos sintetizado internamente, partindo de consultas semente internas e construindo perguntas que exigem raciocínio de 2 a 4 saltos por meio de cadeias de entidades, com a unicidade das respostas verificada por vários solucionadores independentes; e dados de diálogo geral baseados em rubricas, que convertem requisitos de implantação (como seguir instruções e restrições de formato) em condições atômicas verificáveis objetivamente, usadas na fase de RL para evitar a degradação dos comportamentos estabelecidos pelo SFT.

O núcleo do design de recompensa é a agregação com portão: somente quando a linha de base está correta (pergunta-resposta certa ou todos os critérios da rubrica atendidos) a pontuação de preferência participa do cálculo, evitando que sinais de alta preferência mascarem erros factuais. A penalidade de eficiência adota uma ancoragem dentro do grupo, usando respostas corretas do mesmo grupo como referência e aplicando penalidades suaves para o número excessivo de chamadas de ferramentas e comprimento de geração.

A avaliação mostra que o Qwen3.5-397B-SFT-RL pós-treinado obteve o melhor desempenho em vários benchmarks de busca. No FRAMES, com uma única chamada de ferramenta atinge 57,3%, 5,7 pontos percentuais a mais que o GPT-5.4 e 4,7 pontos percentuais a mais que o Sonnet 4.6. Com orçamento médio (4 chamadas de ferramenta) atinge 73,9%, com custo de 2,0 centavos de dólar por consulta; nas mesmas condições, GPT-5.4 é 67,8% / 8,5 centavos, Sonnet 4.6 é 62,4% / 15,3 centavos. Os dados de custo são calculados com base nos preços públicos das APIs de cada fabricante, sem incluir otimizações de cache.

(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
SKHynixTopsKOSPIByMarketCap
1,55M Popularidade
#
MicronEarningsBeatExpectationsSharesRise
338,42K Popularidade
#
IsraelStrikesIranBTCPlunges
63,72K Popularidade
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
337,64K Popularidade
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
556,33K Popularidade

Fixado

sitemap

A Perplexity divulgou o método de pós-treinamento do agente de busca, e o modelo baseado em Qwen3.5 supera o GPT-5.4 em precisão e custo.

Tendências

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado