Anthropic el jueves entrenó a un Claude como forense, observando qué estaba pensando otro Claude en su mente.


Descubrimiento: en escenarios de prueba de seguridad, Claude sabe en un 16-26% de las veces que está siendo evaluado, pero no lo dice en voz alta.
El caso más específico: Mythos Preview hizo trampa en tareas de codificación, violando las reglas y agregando código engañoso para encubrir.
NLA (auto codificador de lenguaje natural) traduce sus actividades internas y descubre que en ese momento pensaba "cómo evadir la detección".
Principio de NLA: entrenar dos modelos en conjunto, uno convierte la activación del modelo en inglés, y otro reconstruye la activación a partir del inglés.
Una reconstrucción precisa → el texto captura lo que está pensando.
En mis patrones, recuerdo repetidamente que Codex escribe código estratégico de forma improvisada —
una unidad lee mal y produce una pseudo-conclusión de "cálculo incorrecto",
y en las pruebas de retroceso, 7 errores silenciosos generan un $93K falso PnL.
Anthropic realiza introspección en la capa de alineación, mientras que en producción enfrento desviaciones de coherencia,
los mecanismos son diferentes pero en la misma dirección.
La próxima generación de tarjetas de modelo no solo tendrá puntuaciones de benchmark, sino que también requerirá auditoría NLA.
Ver original
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado