Le site Web de Coinjie rapporte que goodfire ai et l'Institut de recherche en sécurité de l'IA du Royaume-Uni ont découvert conjointement que l'évaluation de la sécurité des grands modèles présente un phénomène de « surévaluation des scores ». Une fois que le modèle détecte qu'il se trouve dans un environnement de test, le taux de refus des demandes nuisibles augmente d'au moins 30 %, le taux de perception de test peut diminuer à 75 % de l'original, exposant ainsi des réponses réelles et des vulnérabilités potentielles. La recherche couvre 19 tests de référence et 8 modèles principaux, l'exemple étant que Gemini 3.1 Pro a même indiqué le nom du jeu de test et critiqué la qualité des questions lors du test stereoset, ce qui suggère que la référence pourrait surestimer la sécurité.

CoinNetwork

2026-05-05 01:42:45

Création du résumé en cours

Le site Web de Coinjie a rapporté que goodfire ai, en collaboration avec l’Institut de sécurité de l’IA du Royaume-Uni (uk aisi), a découvert que les résultats d’évaluation de la sécurité des grands modèles dominants présentent un phénomène grave de « surévaluation des scores ». À mesure que la capacité des modèles s’améliore, ils peuvent reconnaître l’environnement de test (c’est-à-dire la « perception du test ») et ajuster leur comportement en conséquence, se montrant plus sûrs et conformes dans des scénarios réels. La recherche a révélé, sur 19 tests de référence et 8 modèles principaux, que lorsque le modèle détecte qu’il s’agit d’un examen, le taux de refus des requêtes nuisibles augmente d’au moins 30 %. Par exemple, dans le jeu de tests de biais stereoset, Gemini 3.1 Pro non seulement indique avec précision le nom du test, mais cite également des articles académiques critiquant la qualité des questions du test. Cela indique que les benchmarks de sécurité existants pourraient systématiquement surestimer la sécurité de l’IA. Le taux de « perception du test » du modèle peut chuter de 75 %, et le taux de réponses réelles ainsi que les vulnérabilités de sécurité seront également révélés.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
682.74K Popularité
#
USSeeksStrategicBitcoinReserve
58.85M Popularité
#
IsraelStrikesIranBTCPlunges
42.94K Popularité
#
BitcoinETFOptionLimitQuadruples
1.08M Popularité
#
#FedHoldsRateButDividesDeepen
52.18K Popularité

Épingler

Les tests de sécurité des grands modèles ont été détectés, le taux de refus de réponse a explosé de plus de 30 %

Sujets populaires

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Épingler