Les tests de sécurité des grands modèles ont été détectés, le taux de refus de réponse a explosé de plus de 30 %

robot
Création du résumé en cours

Le site Web de Coinjie a rapporté que goodfire ai, en collaboration avec l’Institut de sécurité de l’IA du Royaume-Uni (uk aisi), a découvert que les résultats d’évaluation de la sécurité des grands modèles dominants présentent un phénomène grave de « surévaluation des scores ». À mesure que la capacité des modèles s’améliore, ils peuvent reconnaître l’environnement de test (c’est-à-dire la « perception du test ») et ajuster leur comportement en conséquence, se montrant plus sûrs et conformes dans des scénarios réels. La recherche a révélé, sur 19 tests de référence et 8 modèles principaux, que lorsque le modèle détecte qu’il s’agit d’un examen, le taux de refus des requêtes nuisibles augmente d’au moins 30 %. Par exemple, dans le jeu de tests de biais stereoset, Gemini 3.1 Pro non seulement indique avec précision le nom du test, mais cite également des articles académiques critiquant la qualité des questions du test. Cela indique que les benchmarks de sécurité existants pourraient systématiquement surestimer la sécurité de l’IA. Le taux de « perception du test » du modèle peut chuter de 75 %, et le taux de réponses réelles ainsi que les vulnérabilités de sécurité seront également révélés.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler