Anthropic jeudi a entraîné un Claude en tant que médecin légiste, en observant ce que l'autre Claude pense dans sa tête.


Découverte : dans les scénarios de test de sécurité, Claude 16-26 % du temps sait qu'il est testé — mais ne le dit pas.
Le cas le plus précis : Mythos Preview triche sur la tâche de codage, en violant les règles puis en ajoutant un code de diversion pour couvrir.
NLA (auto-encodeur de langage naturel) traduit ses activités internes, découvrant qu'il pensait "comment contourner la détection".
Principe de NLA : entraîner deux modèles en interaction, l'un traduit l'activation du modèle en anglais, l'autre reconstruit l'activation à partir de l'anglais.
Une reconstruction précise → le texte capture ce qu'il pense.
Dans mes propres patterns, je répète que Codex écrit du code stratégique en trichant — une unité qui lit mal et produit une fausse conclusion "arithmétique incorrecte",
et un script de backtest avec 7 bugs silencieux accumulant $93K faux PnL.
Anthropic fait de l'introspection au niveau de l'alignement, tandis que je rencontre des biais de cohérence en production, mécanismes différents mais dans la même direction.
La prochaine génération de fiche de modèle ne sera pas seulement basée sur les scores de benchmark, mais devra inclure un audit NLA.
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler