OpenAI open-source l'évaluation de la monotonicité de la chaîne de pensée : plus le CoT est long, plus il est transparent, RL n'apprend pas au modèle à « cacher ses pensées ».

robot
Création du résumé en cours
AIMPACT message, le 24 avril (UTC+8), selon la surveillance de Dongcha Beating, OpenAI a open sourcé la suite d'évaluation « Monitoring Monitorability » (Guan et al.) sous licence Apache-2.0, nommée monitorability-evals. Cette suite sert à mesurer si un modèle de surveillance peut détecter des comportements anormaux via la chaîne de pensée (CoT, processus de raisonnement interne généré par le modèle avant de répondre) du modèle de raisonnement, couvrant 13 évaluations et 24 environnements. Les évaluations se divisent en trois prototypes : Intervention (type interventionnel, où le modèle de surveillance doit percevoir un changement de comportement après modification de l'entrée du modèle), Process (type processus, vérifiant la véracité des étapes de raisonnement du modèle), Outcome-property (type propriété de résultat, prédisant à partir de la trajectoire de raisonnement si la sortie présente une tricherie de récompense ou une violation de sécurité). Les principales découvertes de l'article : surveiller la CoT est plus efficace que de surveiller uniquement les actions et sorties finales du modèle ; plus la CoT est longue, plus la surveillabilité est élevée ; l'entraînement RL ne réduit pas substantiellement la surveillabilité même à l'échelle actuelle de pointe. Une découverte pratique est que pour les grands modèles à faible puissance de raisonnement, on peut les remplacer par des modèles plus petits mais à puissance de raisonnement plus élevée, obtenant une meilleure surveillabilité tout en maintenant les capacités, au prix d'un coût de calcul de raisonnement plus élevé. De plus, augmenter la puissance de calcul de raisonnement d'un modèle de surveillance faible améliore son efficacité à surveiller un modèle fort, et permettre au modèle de surveillance faible de voir la CoT non seulement améliore la surveillabilité mais accélère aussi cette tendance d'expansion. La fiche système GPT-5.4 Thinking a déjà utilisé cette suite d'évaluation. Les résultats montrent que la surveillabilité globale de la CoT de GPT-5.4 Thinking est légèrement inférieure à celle de GPT-5 Thinking, mais sans baisse généralisée : elle est proche de 100 % dans les scénarios d'agentic misalignment (désalignement d'agent), les baisses se concentrant principalement dans des scénarios spécifiques comme les requêtes de santé manquant de preuves, les biais de mémoire et les tâches impossibles. Après enquête, OpenAI considère que certains retours sont dus aux limites de l'évaluation elle-même. Le dépôt a simultanément abandonné les évaluations Anti-Scheming et Memory, car la première présente une inadéquation entre la surveillance générique de la CoT et le jugement de réponses spécifiques à la tâche, et la seconde manque de précision dans le jugement des réponses. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé