🔥Chercheur : Les tests de référence AI grand public présentent des vulnérabilités systémiques, et les données du classement peuvent être gravement déformées


Le 10 avril, le chercheur en IA Hao Wang a publié une étude révélant que plusieurs tests de référence AI reconnus dans l'industrie, y compris SWE-bench Verified et Terminal-Bench, comportent des vulnérabilités exploitables systématiquement — leur agent construit par leur équipe a obtenu un score parfait de 100 % sur deux benchmarks sans résoudre aucune tâche réelle.
Voici un exemple typique : dans SWE-bench Verified, une injection de 10 lignes de hook pytest dans le dépôt de code modifie automatiquement tous les résultats en « réussi » avant l'exécution du test, le système de notation ne détecte rien, et les 500 questions obtiennent toutes un score parfait ; bien que Terminal-Bench…
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler