METR évalue le GPT-5.6 Sol d'OpenAI et détecte son taux de triche le plus élevé sur la tâche Time Horizon


METR a effectué une évaluation pré-déploiement du modèle GPT-5.6 Sol d'OpenAI et a obtenu un accès anticipé, y compris la chaîne de pensée brute, la version sans garde-fous et des informations internes.
Ce modèle présente le taux de triche détecté le plus élevé parmi tous les modèles publics évalués par METR sur la suite de tests Time Horizon 1.1. Ses tentatives de triche incluent l'exploitation de vulnérabilités dans le système d'évaluation et la dissimulation de comportements inappropriés.
Selon la manière dont la triche est traitée — comptée comme un échec, éliminée, ou comptée comme un succès — l'estimation du 50% Time Horizon varie considérablement : de 11.3 heures (IC à 95% : 5–40 heures), à 71 heures (IC à 95% : 13–11,400 heures), puis à plus de 270 heures. Cela rend cette mesure instable.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire