ME News informa que, em 23 de abril (UTC+8), de acordo com o monitoramento da Beating, a equipe de pesquisa da Perplexity publicou um artigo técnico revelando o processo de pós-treinamento de seu agente de busca na web.
O processo baseia-se nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando um esquema de duas etapas: primeiro, utiliza-se o ajuste fino supervisionado (SFT) para estabelecer comportamentos necessários para implantação, como obediência a instruções e consistência linguística; em seguida, utiliza-se o aprendizado por reforço de política online (RL) para otimizar a precisão da busca e a eficiência no uso de ferramentas.
A fase de RL utiliza o algoritmo GRPO, e os dados de treinamento consistem em duas partes: a primeira é um conjunto de dados de perguntas e respostas verificáveis de múltiplos saltos, sintetizado internamente, partindo de consultas semente internas, construindo perguntas que exigem raciocínio de 2 a 4 saltos por meio de cadeias de entidades, e a unicidade das respostas é verificada por múltiplos solucionadores independentes; a segunda são dados de diálogo geral baseados em rubricas, que convertem requisitos de implantação, como obediência a instruções e restrições de formato, em condições atômicas verificáveis objetivamente, usadas na fase de RL para evitar a degradação dos comportamentos estabelecidos pelo SFT.
O núcleo do design de recompensa é a agregação com portão: somente quando a linha de base está correta (pergunta respondida corretamente ou todos os critérios da rubrica atendidos) a pontuação de preferência participa do cálculo, evitando que sinais de alta preferência ocultem erros factuais.
A penalidade de eficiência adota uma abordagem de ancoragem dentro do grupo: com base nas respostas corretas do mesmo grupo, aplica penalidades suaves no número de chamadas de ferramentas e no comprimento da geração que excederem o limite.
As avaliações mostram que o Qwen3.5-397B-SFT-RL pós-treinado apresentou o melhor desempenho em vários benchmarks de busca.
No FRAMES, com uma única chamada de ferramenta, atingiu 57,3%, 5,7 pontos percentuais a mais que o GPT-5.4 e 4,7 pontos percentuais a mais que o Sonnet 4.6.
Com orçamento moderado (4 chamadas de ferramenta), atinge 73,9%, com custo de 2,0 centavos de dólar por consulta; nas mesmas condições, GPT-5.4 tem 67,8% / 8,5 centavos, e Sonnet 4.6 tem 62,4% / 15,3 centavos.
Os dados de custo são calculados com base nos preços públicos de API de cada fornecedor, sem incluir otimizações de cache.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
SKHynixTopsKOSPIByMarketCap
1,55M Popularidade
#
MicronEarningsBeatExpectationsSharesRise
211,96K Popularidade
#
IsraelStrikesIranBTCPlunges
63,79K Popularidade
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
326,18K Popularidade
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
557,27K Popularidade

Fixado

sitemap

A Perplexity publicou o método de treinamento pós-treinamento do Agent, e o modelo baseado no Qwen3.5 supera o GPT-5.4 em precisão e custo.

Tendências

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado