Perplexity a publié la méthode d'entraînement de l'agent de recherche, basé sur le modèle Qwen3.5, qui surpasse GPT-5.4 en termes de précision et de coût.

robot
Création du résumé en cours
ME News nouvelles, le 23 avril (UTC+8), selon la surveillance de Beating, l'équipe de recherche de Perplexity a publié un article technique divulguant le processus de post-entraînement de son agent de recherche web. Ce processus est basé sur les modèles open source Qwen3.5-122B-A10B et Qwen3.5-397B-A17B, adoptant un schéma en deux étapes : d'abord, un fine-tuning supervisé (SFT) pour établir les comportements nécessaires au déploiement tels que le respect des instructions et la cohérence linguistique, puis un apprentissage par renforcement en ligne (RL) pour optimiser la précision de recherche et l'efficacité d'utilisation des outils. La phase RL utilise l'algorithme GRPO, avec des données d'entraînement composées de deux parties : premièrement, un ensemble de données de questions-réponses multi-sauts vérifiables synthétisé en interne, partant de requêtes graines internes, construisant des problèmes nécessitant 2 à 4 sauts de raisonnement via des chaînes d'entités, et vérifié par plusieurs solveurs indépendants pour l'unicité des réponses ; deuxièmement, des données de dialogue général basées sur une grille d'évaluation (rubric), transformant les exigences de déploiement telles que le respect des instructions et les contraintes de format en conditions atomiques objectivement vérifiables, utilisées pour empêcher la dégradation des comportements établis par le SFT pendant la phase RL. Le cœur de la conception de la récompense est une agrégation par porte : le score de préférence n'est pris en compte que lorsque la ligne de base est correcte (réponse correcte aux Q/R ou respect total de la grille), empêchant les signaux de forte préférence de masquer les erreurs factuelles. La pénalité d'efficacité utilise une méthode d'ancrage intra-groupe, avec les réponses correctes du même groupe comme référence, appliquant une pénalité lissée pour les appels d'outils et les longueurs de génération excessifs. Les évaluations montrent que le Qwen3.5-397B-SFT-RL post-entraîné obtient les meilleures performances sur plusieurs benchmarks de recherche. Sur FRAMES, un seul appel d'outil atteint 57,3 %, soit 5,7 points de pourcentage de plus que GPT-5.4 et 4,7 points de plus que Sonnet 4.6. Avec un budget moyen (4 appels d'outil), il atteint 73,9 % pour un coût de 2,0 cents par requête ; dans les mêmes conditions, GPT-5.4 est à 67,8 % / 8,5 cents et Sonnet 4.6 à 62,4 % / 15,3 cents. Les données de coût sont calculées selon les tarifs API publics de chaque fournisseur, sans optimisation de cache. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire