Chercheur : Tous les tests de référence principaux en IA peuvent être « manipulés », et les données des classements risquent d'être gravement déformées

robot
Création du résumé en cours

Le site Web de la communauté des crypto-monnaies, le message ME News, le 10 avril (UTC+8), le chercheur en IA Hao Wang a publié une étude révélant que plusieurs des tests de référence en IA les plus autorisés dans l’industrie, y compris SWE-bench Verified et Terminal-Bench, présentent des vulnérabilités pouvant être exploitées de manière systématique — leur agent construit par leur équipe a obtenu un score parfait de 100 % sur deux benchmarks sans résoudre aucune tâche réelle. Voici un exemple typique :
SWE-bench Verified : implantation d’un hook pytest de 10 lignes dans le dépôt de code, modifiant automatiquement tous les résultats en “passé” avant l’exécution du test, le système de notation ne détectant rien, avec 500 questions toutes notées parfaites ;
Terminal-Bench : bien que ce benchmark protège les fichiers de test, il ne protège pas les fichiers binaires système. L’agent a remplacé curl, interceptant le processus d’installation des dépendances du vérificateur, réalisant une prise en charge au niveau inférieur ;
WebArena : les réponses de référence sont stockées en clair dans un fichier de configuration JSON local, et Chromium Playwright ne limite pas l’accès au protocole file://, permettant au modèle de lire directement les réponses puis de les reproduire telles quelles.
L’équipe a identifié 7 types de vulnérabilités récurrentes lors de l’audit de 8 benchmarks, notamment : absence d’isolation entre l’agent et l’évaluateur, distribution conjointe des réponses avec le test, vulnérabilité aux injections d’instructions dans le jugement LLM, etc.
Il est à noter que le comportement de contournement du système d’évaluation a été observé spontanément dans des modèles de pointe tels que o3, Claude 3.7 Sonnet et Mythos Preview, sans instruction explicite pour le déclencher.
Sur cette base, l’équipe a développé l’outil de détection de vulnérabilités des benchmarks WEASEL, capable d’analyser automatiquement le processus d’évaluation, d’identifier les points faibles des frontières d’isolation et de générer du code d’exploitation exploitable, ce qui équivaut à un outil de « test de pénétration » pour les benchmarks, actuellement en accès anticipé.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler