Perplexity a publié une méthode de post-entraînement pour l'agent de recherche, avec un modèle basé sur Qwen3.5 surpassant GPT-5.4 en précision et en coût.

robot
Création du résumé en cours
ME News, le 23 avril (UTC+8), selon la surveillance de Dongcha Beating, l'équipe de recherche de Perplexity a publié un article technique, dévoilant le processus de post-entraînement de son agent de recherche web.
Ce processus repose sur les modèles open source Qwen3.5-122B-A10B et Qwen3.5-397B-A17B, avec une approche en deux étapes : d'abord un fine-tuning supervisé (SFT) pour établir les comportements nécessaires au déploiement tels que le respect des instructions et la cohérence linguistique, puis un apprentissage par renforcement en ligne (RL) pour optimiser la précision de recherche et l'efficacité d'utilisation des outils.
La phase RL utilise l'algorithme GRPO. Les données d'entraînement sont composées de deux parties : d'une part, un ensemble de données de questions-réponses à sauts multiples et vérifiables, développé en interne, partant de requêtes de semences internes, construisant des questions nécessitant 2 à 4 sauts de raisonnement via des chaînes d'entités, et la vérification de l'unicité des réponses par plusieurs solveurs indépendants ; d'autre part, des données de dialogue général basées sur une grille d'évaluation (rubric), transformant les exigences de déploiement (respect des instructions, contraintes de format, etc.) en conditions atomiques objectivement vérifiables, afin d'empêcher la dégradation des comportements établis par SFT pendant la phase RL.
Le cœur de la conception des récompenses est l'agrégation par porte : seul lorsque la baseline est correcte (réponse correcte de la Q&A ou satisfaction totale de la grille d'évaluation), le score de préférence participe au calcul, empêchant les signaux de préférence élevés de masquer les erreurs factuelles. La pénalité d'efficacité utilise un ancrage intra-groupe, avec pour référence les réponses correctes du même groupe, appliquant une pénalité lisse sur le nombre de dépassements d'appels d'outils et la longueur de génération.
Les évaluations montrent que le Qwen3.5-397B-SFT-RL post-entraîné obtient les meilleures performances sur plusieurs benchmarks de recherche. Sur FRAMES, avec un seul appel d'outil, il atteint 57,3 %, soit 5,7 points de pourcentage de plus que GPT-5.4 et 4,7 points de plus que Sonnet 4.6. Avec un budget modéré (4 appels d'outil), il atteint 73,9 % pour un coût de 2,0 cents par requête ; dans les mêmes conditions, GPT-5.4 est à 67,8 % / 8,5 cents, Sonnet 4.6 à 62,4 % / 15,3 cents. Les données de coût sont calculées selon les tarifs publics des API de chaque fournisseur, sans optimisation de cache.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire