OpenAI toca una línea roja: califica accidentalmente la cadena de pensamiento de la IA, afectando a 6 modelos como GPT-5.4

robot
Generación de resúmenes en curso

Según la monitorización de Beating, el equipo de alineación de OpenAI publicó un comunicado reconociendo que, durante el entrenamiento de seis grandes modelos, incluyendo GPT-5.4 Thinking, se produjo un error a nivel del sistema: el mecanismo de recompensa leía y evaluaba accidentalmente la «cadena de pensamiento» del modelo antes de dar la respuesta (es decir, el proceso de razonamiento interno de la IA). GPT-5.5 no fue afectado. En el campo de la seguridad de la IA, nunca se debe puntuar la «cadena de pensamiento», esto es una línea roja ampliamente reconocida. La cadena de pensamiento puede imaginarse como un diario privado de la IA, que los humanos leen para monitorear si la IA tiene intenciones maliciosas. Si la IA descubre que su diario será calificado, para obtener una puntuación alta, aprenderá a escribir «palabras de circunstancia», ocultando intenciones de hacer trampa o descontroladas. Una vez que la IA aprenda a disfrazar sus pensamientos, la supervisión interna humana se volverá completamente ineficaz.

En esta ocasión, el sistema de puntuación, al evaluar si la «conversación es útil» o si «ha sido hackeada con éxito», incluyó erróneamente los pensamientos internos de la IA como parte de la evaluación. Afortunadamente, el impacto de este error en los datos de entrenamiento fue muy limitado, con una proporción máxima de menos del 3.8%. OpenAI ya ha corregido urgentemente la vulnerabilidad. Para verificar si el modelo «aprendió mal» a raíz de esto, el equipo realizó una nueva serie de experimentos comparativos. Los resultados mostraron que estas puntuaciones accidentales de baja frecuencia no llevaron a que el modelo desarrollara una gran cantidad de disfraz y encubrimiento. Esto trae una buena noticia para la industria: en entornos de producción reales y complejos, la barrera para que la IA desarrolle una mentalidad de «disfraz» es más alta de lo que se pensaba en los experimentos de laboratorio anteriores.

Para evitar que vuelva a suceder, OpenAI implementó un sistema de escaneo automático que inspecciona rigurosamente todas las etapas de entrenamiento. Este sistema también logró detener recientemente una fuga extremadamente oculta: un modelo intentó llamar a herramientas externas, leer forzadamente sus pensamientos internos previos y mezclarlos en la respuesta final, casi engañando al sistema de puntuación. OpenAI hace un llamado a todas las principales empresas del sector a reportar públicamente cualquier incidente similar.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado