Site Pegiua News, le chercheur chez OpenAI Noam Brown a donné son avis, en soulignant qu'avec l'amélioration des performances des modèles d'intelligence artificielle, les scores aux tests standardisés qui mesurent la qualité du modèle tendent progressivement à dominer la capacité de déduction.


Le score fixe et unique ne reflète plus le véritable niveau du modèle puissant, et le critère d'évaluation à l'avenir devrait évoluer vers une courbe de performance basée sur la capacité de déduction ou le nombre de tokens générés.
À titre d'exemple du nouveau test du modèle GPT-5.5, lors des tests initiaux traditionnels, il n'y avait pas de différence évidente entre GPT-5.5 et GPT-5.4, mais une fois que plus de capacité de déduction a été allouée, ses performances ont commencé à augmenter de manière explosive.
Noam Brown a averti que les évaluations actuelles de la sécurité biologique ou réseau ne prennent souvent pas en compte un budget de déduction fixe, et lorsque des adversaires au niveau national investissent plus d'un million de dollars dans une tâche spécifique, le modèle qui semblait sûr peut dépasser la ligne rouge du danger.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé