OpenAI lanza una evaluación de la monitoreabilidad de cadenas de pensamiento de código abierto: cuanto más larga es la CoT, más transparente; el RL no enseña al modelo a ocultar pensamientos.

robot
Generación de resúmenes en curso
AIMPACT Noticias, 24 de abril (UTC+8), según el monitoreo de 动察 Beating, OpenAI ha publicado el conjunto de evaluación «monitoring monitorability» del artículo «Monitoring Monitorability» (Guan et al.), con licencia Apache-2.0. Este conjunto se utiliza para medir si un modelo de monitoreo puede detectar comportamientos anómalos a través de la cadena de pensamiento (CoT, proceso de razonamiento interno generado por el modelo antes de responder) de un modelo de razonamiento, abarcando 13 evaluaciones y 24 entornos. Las evaluaciones se dividen en tres prototipos: Intervention (tipo de intervención, que cambia la entrada del modelo para ver si el modelo de monitoreo puede percibir el cambio de comportamiento), Process (tipo de proceso, que verifica si los pasos de razonamiento del modelo son reales) y Outcome-property (tipo de propiedad de resultado, que predice a partir de la trayectoria de razonamiento si el resultado presenta trampas en recompensas o violaciones de seguridad). Hallazgos clave del artículo: monitorear la CoT es más efectivo que monitorear solo las acciones finales y la salida del modelo; cuanto más larga es la CoT, mayor es la monitoreabilidad; el entrenamiento con RL, incluso a la escala de frontera actual, no reduce sustancialmente la monitoreabilidad. Un hallazgo práctico es que, para modelos grandes con baja intensidad de razonamiento, se puede cambiar a un modelo más pequeño pero con mayor intensidad de razonamiento, igualando capacidades mientras se obtiene una mayor monitoreabilidad, a costa de un cómputo de razonamiento más caro. Además, aumentar el cómputo de razonamiento de un modelo de monitoreo débil puede mejorar su efectividad para monitorear modelos fuertes, y permitir que el modelo débil vea la CoT no solo mejora la monitoreabilidad, sino que también acelera esta tendencia de escalado. La tarjeta del sistema GPT-5.4 Thinking ya ha utilizado este conjunto de evaluaciones. Los resultados muestran que la monitoreabilidad general de la CoT de GPT-5.4 Thinking es ligeramente inferior a la de GPT-5 Thinking, pero no una disminución general: en escenarios de desalineación agente (agentic misalignment) es cercana al 100%, y la disminución se concentra en escenarios específicos como falta de evidencia en consultas de salud, sesgo de memoria y tareas imposibles. OpenAI, tras investigar, considera que parte de la regresión se debe a limitaciones de la propia evaluación. El repositorio ha descontinuado simultáneamente las evaluaciones Anti-Scheming y Memory, debido a un desajuste entre el monitoreo general de CoT y el juicio de respuestas específicas de tareas en el primero, y a la precisión insuficiente del juicio de respuestas en el segundo. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado