OpenAI publie une évaluation de la contrôlabilité de la chaîne de pensée : plus la CoT est longue, plus elle est transparente ; le RL n'apprend pas au modèle à "cacher ses pensées".

robot
Création du résumé en cours
AIMPACT Message, le 24 avril (UTC+8), selon la surveillance de Beating, OpenAI a open-sourcé l'évaluation du document « Monitoring Monitorability » (Guan et al.) nommée monitorability-evals, sous licence Apache-2.0. Cette suite sert à mesurer si un modèle de surveillance peut détecter des comportements anormaux via la chaîne de pensée (CoT, processus de raisonnement interne généré par le modèle avant de répondre) du modèle de raisonnement, couvrant 13 évaluations et 24 environnements. Les évaluations se répartissent en trois prototypes : Intervention (type d'intervention, qui vérifie si le modèle de surveillance peut percevoir un changement de comportement après avoir modifié l'entrée du modèle), Process (type de processus, qui vérifie si les étapes de raisonnement du modèle sont réelles), Outcome-property (type de propriété de résultat, qui prédit à partir de la trace de raisonnement si la sortie présente une triche de récompense ou une violation de sécurité). Découverte clé du document : surveiller la CoT est plus efficace que de surveiller uniquement les actions et sorties finales du modèle ; plus la CoT est longue, plus la surveillabilité est élevée ; l'entraînement RL ne réduit pas substantiellement la surveillabilité, même à l'échelle actuelle de pointe. Une découverte pratique est que, pour les grands modèles à faible effort de raisonnement, on peut les remplacer par des modèles plus petits mais à effort de raisonnement plus élevé, obtenant une meilleure surveillabilité avec des capacités équivalentes, au prix d'un coût de calcul de raisonnement plus élevé. De plus, augmenter la puissance de calcul de raisonnement du modèle de surveillance faible peut améliorer son efficacité à surveiller un modèle fort, et permettre au modèle de surveillance faible de voir la CoT améliore non seulement la surveillabilité, mais accélère également cette tendance de passage à l'échelle. La fiche système GPT-5.4 Thinking a déjà utilisé cette évaluation. Les résultats montrent que la surveillabilité globale de la CoT de GPT-5.4 Thinking est légèrement inférieure à celle de GPT-5 Thinking, mais pas une baisse généralisée : dans le scénario de désalignement agentique, elle est proche de 100 %, les baisses se concentrent dans des scénarios spécifiques comme l'absence de preuves pour les requêtes de santé, les biais de mémoire et les tâches impossibles. Après enquête, OpenAI estime que certaines régressions proviennent des limites de l'évaluation elle-même. Le dépôt a également abandonné deux évaluations, Anti-Scheming et Memory, en raison d'une inadéquation entre la surveillance générale de la CoT et le jugement spécifique de la réponse à la tâche pour la première, et d'une précision insuffisante du jugement de la réponse pour la seconde. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé