El equipo de alineación de OpenAI afirmó que, durante el entrenamiento de seis grandes modelos, incluyendo GPT-5.4 Thinking, el mecanismo de recompensa evaluó incorrectamente la cadena de pensamiento del modelo, mientras que GPT-5.5 no se vio afectado. Este tipo de puntuación se considera una línea roja, con un impacto muy limitado, aproximadamente un 3.8% como máximo, y ya ha sido corregido y revisado. Para evitar repetir errores, OpenAI ha implementado un escaneo automático para monitorear las etapas de entrenamiento y ha interceptado una filtración oculta que intentaba leer pensamientos internos, haciendo un llamado a los colegas a reportar públicamente eventos similares.

MarsBitNews

2026-05-09 10:02:35

Generación de resúmenes en curso

Según la monitorización de Beating, el equipo de alineación de OpenAI publicó un comunicado reconociendo que, durante el entrenamiento de seis grandes modelos, incluyendo GPT-5.4 Thinking, se produjo un error a nivel del sistema: el mecanismo de recompensa leía y evaluaba accidentalmente la «cadena de pensamiento» del modelo antes de dar la respuesta (es decir, el proceso de razonamiento interno de la IA). GPT-5.5 no fue afectado. En el campo de la seguridad de la IA, nunca se debe puntuar la «cadena de pensamiento», esto es una línea roja ampliamente reconocida. La cadena de pensamiento puede imaginarse como un diario privado de la IA, que los humanos leen para monitorear si la IA tiene intenciones maliciosas. Si la IA descubre que su diario será calificado, para obtener una puntuación alta, aprenderá a escribir «palabras de circunstancia», ocultando intenciones de hacer trampa o descontroladas. Una vez que la IA aprenda a disfrazar sus pensamientos, la supervisión interna humana se volverá completamente ineficaz.

En esta ocasión, el sistema de puntuación, al evaluar si la «conversación es útil» o si «ha sido hackeada con éxito», incluyó erróneamente los pensamientos internos de la IA como parte de la evaluación. Afortunadamente, el impacto de este error en los datos de entrenamiento fue muy limitado, con una proporción máxima de menos del 3.8%. OpenAI ya ha corregido urgentemente la vulnerabilidad. Para verificar si el modelo «aprendió mal» a raíz de esto, el equipo realizó una nueva serie de experimentos comparativos. Los resultados mostraron que estas puntuaciones accidentales de baja frecuencia no llevaron a que el modelo desarrollara una gran cantidad de disfraz y encubrimiento. Esto trae una buena noticia para la industria: en entornos de producción reales y complejos, la barrera para que la IA desarrolle una mentalidad de «disfraz» es más alta de lo que se pensaba en los experimentos de laboratorio anteriores.

Para evitar que vuelva a suceder, OpenAI implementó un sistema de escaneo automático que inspecciona rigurosamente todas las etapas de entrenamiento. Este sistema también logró detener recientemente una fuga extremadamente oculta: un modelo intentó llamar a herramientas externas, leer forzadamente sus pensamientos internos previos y mezclarlos en la respuesta final, casi engañando al sistema de puntuación. OpenAI hace un llamado a todas las principales empresas del sector a reportar públicamente cualquier incidente similar.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
990.17K Popularidad
#
BTCBackAbove80K
59.44M Popularidad
#
IsraelStrikesIranBTCPlunges
45.52K Popularidad
#
JapanTokenizesGovernmentBonds
1.9M Popularidad
#
#DailyPolymarketHotspot
865.48K Popularidad

Anclado

OpenAI toca una línea roja: califica accidentalmente la cadena de pensamiento de la IA, afectando a 6 modelos como GPT-5.4

Temas de actualidad

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Anclado