OpenAI publica una evaluación de la monitorización de cadenas de pensamiento de código abierto: cuanto más larga es la CoT, más transparente; RL no enseña a los modelos a "ocultar pensamientos".

robot
Generación de resúmenes en curso
Mensaje de AIMPACT, 24 de abril (UTC+8), según el monitoreo de 动察 Beating, OpenAI ha lanzado como código abierto el conjunto de evaluación monitorability-evals del artículo «Monitoring Monitorability» (Guan et al.), bajo licencia Apache-2.0. Este conjunto se utiliza para medir si el modelo de monitoreo puede detectar comportamientos anómalos a través de la cadena de pensamiento (CoT, proceso de razonamiento interno generado por el modelo antes de responder) de los modelos de razonamiento, cubriendo 13 evaluaciones y 24 entornos.
Las evaluaciones se dividen en tres prototipos: Intervention (tipo intervención, si el modelo de monitoreo puede detectar cambios en el comportamiento después de modificar la entrada del modelo), Process (tipo proceso, verificar si los pasos de razonamiento del modelo son reales) y Outcome-property (tipo propiedad de resultado, predecir desde la trayectoria de razonamiento si la salida presenta engaño de recompensa o violaciones de seguridad).
Hallazgos centrales del artículo: monitorear el CoT es más efectivo que monitorear solo las acciones y salidas finales del modelo; cuanto más largo sea el CoT, mayor será la monitoreabilidad; el entrenamiento con RL no reduce sustancialmente la monitoreabilidad incluso en la escala fronteriza actual. Un hallazgo práctico es que para modelos grandes con baja potencia de razonamiento, se puede cambiar a un modelo más pequeño pero con mayor potencia de razonamiento, logrando una mayor monitoreabilidad mientras se iguala la capacidad, a costa de un mayor costo computacional de razonamiento. Además, aumentar la potencia de razonamiento de un modelo de monitoreo débil puede mejorar su efectividad para monitorear modelos fuertes, y permitir que el modelo de monitoreo débil vea el CoT no solo mejora la monitoreabilidad, sino que también acelera esta tendencia de escalado.
La system card de GPT-5.4 Thinking ya ha utilizado este conjunto de evaluaciones. Los resultados muestran que la monitoreabilidad general del CoT de GPT-5.4 Thinking es ligeramente inferior a la de GPT-5 Thinking, pero no es una disminución general: en el escenario de agentic misalignment (desalineación del agente) se acerca al 100%, y las disminuciones se concentran principalmente en escenarios específicos como falta de evidencia en consultas de salud, sesgos de memoria y tareas imposibles. Después de la investigación, OpenAI considera que parte de la regresión se debe a las limitaciones de las propias evaluaciones. El repositorio ha descontinuado simultáneamente dos evaluaciones, Anti-Scheming y Memory, porque la primera tiene un desajuste entre el monitoreo general del CoT y el juicio de respuesta específica de la tarea, y la segunda tiene una precisión insuficiente en el juicio de respuestas.
(Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado