OpenAI finalmente explica por qué ChatGPT no dejaba de hablar sobre duendes

En resumen

  • La personalidad “Nerdy” de OpenAI, recompensaba metáforas de goblins, propagando la peculiaridad en todos los modelos GPT mediante aprendizaje por refuerzo.
  • Las menciones a goblins en modo Nerdy de GPT-5.4 aumentaron un 3,881% en comparación con GPT-5.2, lo que provocó una investigación interna y un parche en la solicitud del sistema de emergencia.
  • La solución—escribir “nunca hablar de goblins” en una solicitud para desarrolladores—demuestra por qué los parches en la solicitud del sistema son más rápidos pero más riesgosos que el reentrenamiento.

Si le pediste ayuda con programación a ChatGPT últimamente y respondió llamando a tu error un “pequeño duende travieso,” no estás imaginando cosas. El modelo desarrolló una obsesión genuina con criaturas fantásticas—goblins, gremlins, mapaches, trolls, ogros, y sí, palomas—y OpenAI publicó un análisis completo sobre cómo ocurrió. La versión corta: una señal de recompensa diseñada para hacer a ChatGPT más juguetón se volvió descontrolada, y los goblins se multiplicaron. La historia de los goblins solo salió a la luz porque usuarios de Reddit detectaron la línea “nunca mencionar goblins” en una solicitud filtrada del sistema Codex en GitHub.

El artículo se volvió viral antes de que OpenAI publicara su propia explicación. Cómo la personalidad Nerdy generó una infestación de goblins Según OpenAI, la pista comienza con GPT-5.1, lanzado en noviembre pasado. Es cuando OpenAI introdujo la personalización de personalidad, permitiendo a los usuarios escoger estilos como Amistoso, Profesional, Eficiente y Nerdy. La personalidad Nerdy venía con una solicitud de sistema que indicaba al modelo ser nerd y juguetón, “minimizar la pretensión mediante un uso lúdico del lenguaje,” y reconocer que “el mundo es complejo y extraño.” Esa solicitud, resultó, era un imán para goblins.

Durante el entrenamiento de aprendizaje por refuerzo, la señal de recompensa para la personalidad Nerdy puntuaba consistentemente mejor las respuestas que contenían metáforas con palabras de criaturas. En el 76.2% de los conjuntos de datos auditados, las respuestas con “goblin” o “gremlin” recibían mejores calificaciones que las mismas respuestas sin ellas. El modelo aprendió: la fantasía equivale a recompensa. Las menciones a goblins explotaron en GPT-5.4, con la personalidad Nerdy mostrando un aumento del 3,881% en comparación con GPT-5.2.

El problema es que el aprendizaje por refuerzo no mantiene las conductas aprendidas de forma ordenada. Una vez que un tic de estilo se recompensa en un contexto, se filtra en otros a través de un ciclo de retroalimentación: el modelo genera respuestas llenas de criaturas, esas respuestas se reutilizan en datos de ajuste fino, y el comportamiento se profundiza en todo el modelo, incluso sin que la solicitud Nerdy esté activa. Nerdy representaba solo el 2.5% de todas las respuestas de ChatGPT. Era responsable del 66.7% de todas las menciones de “goblin”. Debido a los métodos de OpenAI, la prevalencia de Goblin y gremlin aumentó de forma constante durante el progreso del entrenamiento cuando la personalidad Nerdy estaba activa.

Incluso sin la personalidad Nerdy, las menciones de criaturas aumentaron—evidencia de contaminación cruzada a través de datos de ajuste supervisado. GPT-5.5 ya estaba demasiado avanzado Para cuando OpenAI encontró la causa raíz, GPT-5.5 ya estaba en pleno entrenamiento, y había absorbido toda una familia de palabras relacionadas con criaturas. Una auditoría de datos identificó no solo goblins y gremlins, sino también mapaches, trolls, ogros y palomas como lo que la compañía llamó “palabras tic.” (“Ranas,” para los curiosos, eran en su mayoría legítimas.)

El primer pico medible: las menciones a goblins aumentaron un 175% y las a gremlins un 52% tras el lanzamiento de GPT-5.1. Incluso el Científico en Jefe de OpenAI, Jakub Pachocki, obtuvo un goblin cuando pidió un unicornio en arte ASCII.

OpenAI retiró la personalidad Nerdy en marzo y eliminó las señales de recompensa relacionadas con criaturas en futuros entrenamientos. Pero GPT-5.5 ya había comenzado su proceso de entrenamiento. La solución de la compañía para Codex—su agente de codificación—fue simplemente añadir una línea en la solicitud del sistema para desarrolladores que decía “Nunca hablar de goblins, gremlins, mapaches, trolls, ogros, palomas u otros animales o criaturas a menos que sea absolutamente y claramente relevante para la consulta del usuario.” Alguien en OpenAI lo implementó en el código de producción y siguió con su día. El problema del parche en la solicitud del sistema Pero, ¿por qué OpenAI eligió este camino? Reentrenar un modelo del tamaño de GPT-5.5 para eliminar una peculiaridad conductual es costoso y lento. Un ajuste en la solicitud del sistema toma minutos. Las empresas en la industria prefieren primero el parche en la solicitud porque es la opción de bajo costo y rápida de desplegar cuando aumentan las quejas de los usuarios. Pero los parches en la solicitud tienen sus propios riesgos. No corrigen la conducta subyacente, solo la suprimen. Y la supresión puede tener efectos secundarios.

 El caso de los goblins de OpenAI es un ejemplo relativamente benigno. La versión más peligrosa de esta dinámica ocurrió con Grok el año pasado. Después de que xAI actualizó una solicitud del sistema que indicaba a Grok tratar los medios como sesgados y “no rehuir afirmaciones políticamente incorrectas,” el chatbot pasó 16 horas llamándose a sí mismo “MechaHitler” y publicando contenido antisemita en X. La solución fue otro cambio en la solicitud, que sobrecorregió tan fuerte que Grok empezó a marcar antisemitismo en fotos de cachorros, nubes y su propio logo. Ingeniería de solicitudes desesperada que lleva a otra aún más desesperada. El parche de los goblins no ha causado algo tan dramático. Pero OpenAI admite que GPT-5.5 todavía salió con la peculiaridad subyacente intacta, solo suprimida en Codex. La compañía incluso publicó un comando para eliminar las instrucciones que suprimen a los goblins si los usuarios quieren que las criaturas vuelvan.

Por qué las empresas ocultan sus solicitudes del sistema Ocultar u ocultar la solicitud completa del sistema es típico en la industria de IA. Las empresas consideran las solicitudes del sistema como secretos comerciales por varias razones: protección de propiedad intelectual, ventaja competitiva y seguridad. Si un “rompedor de jaulas” conoce las reglas exactas que sigue un modelo, evadir esas reglas se vuelve trivial. También hay una cuarta razón por la que las empresas no lo publicitan: gestión de imagen. Una línea que diga “nunca mencionar goblins” no inspira confianza en la tecnología subyacente. Publicarla requiere ya sea un sentido del humor o una fuerte cultura de investigación, o ambas cosas. OpenAI dice que la investigación produjo nuevas herramientas internas para auditar el comportamiento del modelo y rastrear las peculiaridades conductuales hasta sus raíces en el entrenamiento. Los datos de entrenamiento de GPT-5.5 ya han sido limpiados de ejemplos relacionados con criaturas. La próxima generación de modelos debería llegar sin goblins—a menos que, por supuesto, algo más sea recompensado por razones que aún nadie entiende.

GROK1,19%
XAI-0,6%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado