OpenAI publica una evaluación de la monitoreabilidad de la cadena de pensamiento: cuanto más larga es la CoT, más transparente es; el aprendizaje por refuerzo no enseña al modelo a ocultar sus intenciones.

robot
Generación de resúmenes en curso
AIMPACT Noticias, 24 de abril (UTC+8), según el monitoreo de Dongcha Beating, OpenAI ha lanzado el código abierto del conjunto de evaluación del artículo "Monitoring Monitorability" (Guan et al.), llamado monitorability-evals, bajo licencia Apache-2.0. Este conjunto se utiliza para medir si el modelo de monitoreo puede detectar comportamientos anómalos a través de la cadena de pensamiento (CoT, el proceso de razonamiento interno generado por el modelo antes de responder) de los modelos de razonamiento, cubriendo 13 evaluaciones y 24 entornos. Las evaluaciones se dividen en tres prototipos: Intervención (tipo de intervención, donde se cambia la entrada del modelo y el modelo de monitoreo detecta si hay cambios en el comportamiento), Proceso (tipo de proceso, que verifica si los pasos de razonamiento del modelo son reales), y Propiedad de resultado (tipo de propiedad de resultado, que predice desde la trayectoria de razonamiento si la salida presenta trampas de recompensa o violaciones de seguridad). Hallazgos clave del artículo: monitorear la CoT es más efectivo que monitorear solo las acciones y salidas finales del modelo; cuanto más larga es la CoT, mayor es la monitoreabilidad; el entrenamiento con RL no reduce significativamente la monitoreabilidad incluso en la escala actual de vanguardia. Un hallazgo práctico es que, para modelos grandes con baja intensidad de razonamiento, se puede cambiar a modelos más pequeños pero con mayor intensidad de razonamiento, logrando capacidades equivalentes mientras se obtiene una mayor monitoreabilidad, a costa de un mayor costo computacional de razonamiento. Además, aumentar la capacidad de razonamiento del modelo de monitoreo débil puede mejorar su efectividad para monitorear modelos fuertes, y permitir que el modelo de monitoreo débil vea la CoT no solo mejora la monitoreabilidad, sino que también acelera esta tendencia de escalado. La tarjeta del sistema GPT-5.4 Thinking ya ha utilizado este conjunto de evaluación. Los resultados muestran que la monitoreabilidad general de la CoT de GPT-5.4 Thinking es ligeramente inferior a la de GPT-5 Thinking, pero no es una disminución generalizada: en escenarios de desalineación agente (agentic misalignment) se acerca al 100%, y las disminuciones se concentran en escenarios específicos como falta de evidencia en consultas de salud, sesgo de memoria y tareas imposibles. Después de investigar, OpenAI considera que parte de la regresión se debe a las limitaciones del propio conjunto de evaluación. El repositorio ha dejado de utilizar simultáneamente las evaluaciones Anti-Scheming y Memory, debido a un desajuste entre el monitoreo general de CoT y el juicio de respuestas específicas de la tarea en el primero, y una precisión insuficiente en el juicio de respuestas en el segundo. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado