OpenAI publie une évaluation de la monitorabilité de la chaîne de pensée : plus le CoT est long, plus il est transparent, et RL n'apprend pas aux modèles à « cacher leurs pensées »

robot
Création du résumé en cours
AIMPACT message, le 24 avril (UTC+8), selon la surveillance de Dongcha Beating, OpenAI a open-sourcé la suite d'évaluation monitorability-evals pour l'article « Monitoring Monitorability » (Guan et al.), sous licence Apache-2.0. Cette suite est utilisée pour mesurer si un modèle de surveillance peut détecter des comportements anormaux via la chaîne de pensée (CoT, le processus de raisonnement interne généré par le modèle avant de répondre) du modèle de raisonnement, couvrant 13 évaluations et 24 environnements. Les évaluations sont divisées en trois prototypes : Intervention (type intervention, modifie l'entrée du modèle pour voir si le modèle de surveillance perçoit le changement de comportement), Process (type processus, vérifie si les étapes de raisonnement du modèle sont réelles), Outcome-property (type propriété de résultat, prédit à partir de la trajectoire de raisonnement s'il y a une tricherie de récompense ou une violation de sécurité dans la sortie). Les découvertes clés de l'article : surveiller la CoT est plus efficace que de surveiller uniquement les actions et sorties finales du modèle ; plus la CoT est longue, plus la surveillabilité est élevée ; l'entraînement RL ne réduit pas substantiellement la surveillabilité même à l'échelle de pointe actuelle. Une découverte pratique est que pour les grands modèles à faible puissance de raisonnement, on peut utiliser un modèle plus petit mais avec une puissance de raisonnement plus élevée, obtenant une meilleure surveillabilité tout en égalant les capacités, au prix d'un calcul de raisonnement plus coûteux. De plus, augmenter la puissance de calcul de raisonnement d'un modèle de surveillance faible peut améliorer son efficacité à surveiller un modèle fort, et permettre au modèle de surveillance faible de voir la CoT améliore non seulement la surveillabilité mais accélère également cette tendance de scaling. La fiche système de GPT-5.4 Thinking a utilisé cette suite d'évaluation. Les résultats montrent que la surveillabilité globale de la CoT de GPT-5.4 Thinking est légèrement inférieure à celle de GPT-5 Thinking, mais pas de manière générale : elle est proche de 100 % dans le scénario de désalignement agentique (agentic misalignment), les baisses se concentrant principalement dans les scénarios spécifiques comme les requêtes de santé manquant de preuves, les biais de mémoire et les tâches impossibles. Après enquête, OpenAI estime que certaines régressions proviennent des limites de l'évaluation elle-même. Le dépôt a également abandonné deux évaluations : Anti-Scheming et Memory, en raison d'une inadéquation entre la surveillance générale de la CoT et le jugement spécifique à la tâche pour la première, et d'une précision insuffisante du jugement des réponses pour la seconde. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé