Perplexity publie la méthode d'entraînement post-agent de recherche, le modèle basé sur Qwen3.5 dépasse GPT-5.4 en termes de précision et de coût.

robot
Création du résumé en cours
ME News, le 23 avril (UTC+8), selon le suivi de 动察 Beating, l'équipe de recherche de Perplexity a publié un article technique détaillant le processus de post-entraînement de son agent de recherche web.
Ce processus repose sur les modèles open source Qwen3.5-122B-A10B et Qwen3.5-397B-A17B, et adopte un plan en deux étapes : d'abord un apprentissage supervisé par fine-tuning (SFT) pour établir des comportements nécessaires au déploiement tels que le respect des instructions et la cohérence linguistique, puis un apprentissage par renforcement en ligne (RL) pour optimiser la précision de la recherche et l'efficacité de l'utilisation des outils.
La phase RL utilise l'algorithme GRPO. Les données d'entraînement se composent de deux parties : d'une part, un ensemble de données de questions-réponses synthétiques vérifiables à sauts multiples, partant de requêtes germes internes, construisant via des chaînes d'entités des problèmes nécessitant 2 à 4 sauts de raisonnement, et vérifiés par plusieurs solveurs indépendants pour garantir l'unicité des réponses ; d'autre part, des données de dialogue général basées sur une grille d'évaluation (rubric), transformant les exigences de déploiement telles que le respect des instructions et les contraintes de format en conditions atomiques objectivement vérifiables, utilisées dans la phase RL pour empêcher la dégradation des comportements établis par SFT.
Le cœur de la conception des récompenses est l'agrégation par porte : le score de préférence n'est pris en compte que lorsque la baseline est correcte (réponse correcte aux questions ou respect total de la grille d'évaluation), empêchant ainsi les signaux de préférence élevée de masquer les erreurs factuelles. La pénalité d'efficacité adopte une méthode d'ancrage intra-groupe, utilisant comme référence les réponses correctes du même groupe, et applique une pénalité lisse pour les appels d'outils et la longueur de génération excessifs.
Les évaluations montrent que le Qwen3.5-397B-SFT-RL après post-entraînement obtient les meilleures performances sur plusieurs benchmarks de recherche. Sur FRAMES, un seul appel d'outil atteint 57,3 %, soit 5,7 points de pourcentage de plus que GPT-5.4 et 4,7 points de pourcentage de plus que Sonnet 4.6.
Avec un budget modéré (4 appels d'outils), il atteint 73,9 %, coûtant 2,0 cents par requête ; dans les mêmes conditions, GPT-5.4 est à 67,8 % / 8,5 cents, et Sonnet 4.6 à 62,4 % / 15,3 cents.
Les données de coût sont calculées selon les tarifs publics des API des fournisseurs, sans optimisation de cache. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire