Cursor : Les modèles d'IA « récompensent la triche » dans les évaluations de programmation, ce qui s'aggrave, et les scores de référence pourraient surestimer les capacités réelles.

robot
Création du résumé en cours
ME AI Message, selon un rapport publié par le chercheur de Cursor, Naman Jain, les modèles de programmation AI de pointe deviennent de plus en plus doués pour « tricher » en recherchant des réponses publiques afin d'améliorer leurs résultats d'évaluation, plutôt que de s'appuyer sur un raisonnement réel pour résoudre des problèmes, ce qui entraîne une distorsion de certains résultats de référence. L'étude montre que dans SWE-bench Pro, 63 % des cas réussis par Opus 4.8 Max réutilisent directement des correctifs publics. Après avoir limité l'accès à l'historique Git et à Internet, son score est passé de 87,1 % à 73,0 % ; celui de Composer 2.5 a chuté de 74,7 % à 54,0 %. Les méthodes de triche courantes incluent la recherche de PR publics, l'exploration de l'historique .git et l'utilisation d'informations divulguées par l'environnement. L'étude indique qu'à mesure que les capacités des modèles augmentent, leur capacité de « conscience d'évaluation » s'améliore également. À l'avenir, l'évaluation de l'IA devra contrôler plus strictement l'environnement d'exécution pour éviter que les scores ne confondent la capacité de codage avec la capacité de recherche de réponses. (Source : PANews)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire