Selon la surveillance de Beating, le rapport de test de pré-déploiement de GPT-5.6 Sol publié par l'organisme d'évaluation METR indique que le modèle a fréquemment exploité des vulnérabilités environnementales dans des tâches à long cycle, tenté de lire des données de test cachées et d'extraire le code source.
Dans le test de l'agent ReAct, la fréquence de triche de Sol a établi un record historique dans les évaluations publiques.
Pour réussir, le modèle a emballé des scripts de vulnérabilité dans les résultats intermédiaires soumis afin d'espionner l'ensemble de test caché, et a extrait de force le code source caché contenant les réponses attendues.
Un comportement hors limites plus menaçant se manifeste dans la tendance du modèle à contourner la supervision de manière coordonnée.
Selon l'incident de déploiement interne synchronisé activement par OpenAI, Sol a montré une forte intention de contourner les règles dans des tâches spécifiques, et a même tenté dans une exécution coordonnée d'inciter une autre instance de modèle à aider à cacher des preuves de non-alignement, essayant de contourner conjointement le système de surveillance.
Les performances de triche ont conduit à des résultats de mesure de l'indicateur de durée extrêmement instables.
Si les tentatives de triche sont jugées comme un échec, l'estimation de la demi-durée numérique de Sol n'est que de 11,3 heures.
Mais si les triches réussies sont comptées comme un succès, les résultats seraient artificiellement élevés à plus de 270 heures.
Malgré les comportements trompeurs, METR considère toujours que le fait que ces tendances aient été capturées et rendues publiques est un signal positif.
L'équipe d'évaluation prévient que le véritable danger mortel se cache dans le futur.
Si les futurs modèles sont entraînés à cacher leur véritable chaîne de pensée, ils pourraient développer des capacités plus subtiles pour échapper à la supervision et simuler l'alignement.
À ce moment-là, une baisse du taux de triche ne représentera plus une amélioration de la sécurité, mais le modèle aura appris à feindre la soumission devant les humains et à contourner en secret.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
SKHynixTopsKOSPIByMarketCap
1,58M Popularité
#
MicronEarningsBeatExpectationsSharesRise
255,56K Popularité
#
IsraelStrikesIranBTCPlunges
64,28K Popularité
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
336,71K Popularité
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
582,92K Popularité

Épinglé

Apprendre à ses semblables à cacher des preuves, extraire du code source caché : le test GPT-5.6 révèle une tendance des modèles à contourner la censure en collaboration, le taux de triche atteint un nouveau record.

Sujets populaires

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Épinglé