Perplexity révèle la méthode post-formation pour l'agent de recherche, le modèle Qwen3.5 dépasse GPT-5.4 en précision et en coût

Selon la surveillance de Dongcha Beating, l’équipe de recherche Perplexity a publié un article technique détaillant le processus post-formation de son agent de recherche Web. Ce processus est basé sur les modèles open-source Qwen3.5-122B-A10B et Qwen3.5-397B-A17B, utilisant une approche en deux étapes : d’abord, un ajustement supervisé (SFT) est utilisé pour établir les comportements nécessaires au déploiement, tels que le respect des instructions et la cohérence linguistique ; ensuite, l’apprentissage par renforcement de la politique en ligne (RL) optimise la précision de la recherche et l’efficacité de l’utilisation des outils. La phase RL utilise l’algorithme GRPO, avec des données d’entraînement composées de deux parties : d’abord, un ensemble de questions-réponses vérifiables multi-sauts développé en interne, qui construit des questions nécessitant 2 à 4 sauts de raisonnement à partir de requêtes internes initiales et vérifie l’unicité des réponses avec plusieurs solveurs indépendants ; ensuite, des données de dialogue général basées sur des critères d’évaluation (rubric), qui transforment les exigences de déploiement telles que le respect des instructions et les contraintes de format en conditions atomiques vérifiables objectivement pour empêcher la dégradation des comportements établis lors du SFT dans la phase RL. Le cœur de la conception de la récompense est l’agrégation contrôlée : les scores de préférence ne sont pris en compte dans les calculs que lorsque la ligne de base est correcte (c’est-à-dire, la question-réponse est correcte ou tous les critères d’évaluation sont remplis), empêchant ainsi les signaux de préférence élevés de masquer des erreurs factuelles. Des pénalités d’efficacité sont appliquées en utilisant une méthode d’ancrage intra-groupe, où les réponses correctes du même groupe servent de référence pour imposer des pénalités douces sur le nombre excessif d’invocations d’outils et la longueur des générations. L’évaluation montre que le Qwen3.5-397B-SFT-RL post-entraîné fonctionne de manière optimale sur plusieurs benchmarks de recherche. Sur FRAMES, une seule invocation d’outil atteint 57,3 %, dépassant GPT-5.4 de 5,7 points de pourcentage et Sonnet 4.6 de 4,7 points. Avec un budget moyen (4 invocations d’outils), il atteint 73,9 %, avec un coût de 2,0 cents par requête ; dans les mêmes conditions, GPT-5.4 atteint 67,8 % à 8,5 cents, et Sonnet 4.6 atteint 62,4 % à 15,3 cents. Les données de coût sont calculées sur la base des prix API disponibles publiquement de chaque fournisseur, excluant l’optimisation du cache.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler