OpenAI aclaró de dónde proviene el "Goblin": una señal de recompensa de carácter contaminó toda la línea de entrenamiento

robot
Generación de resúmenes en curso

AIMPACT Mensaje, 30 de abril (UTC+8), según la monitorización de Dòngchá Beating, OpenAI publicó un resumen sobre el problema de los «goblins» que ha afectado a varias generaciones de GPT. Desde GPT-5.1, el modelo ha comenzado a incluir cada vez más metáforas de criaturas fantásticas como goblins y duendecillos en sus respuestas, lo que ha generado constantes quejas de los usuarios. Después del lanzamiento de GPT-5.1, la frecuencia de aparición de la palabra «goblin» en las conversaciones de ChatGPT aumentó un 175%. Para GPT-5.4, el problema explotó por completo. La raíz del problema está en la función de personalización de personalidad «Nerdy» de ChatGPT. La instrucción del sistema para esta personalidad exige que el modelo «resuelva con humor en el lenguaje» y «reconozca y disfrute de las rarezas del mundo». Durante el entrenamiento, la señal de recompensa que refuerza este estilo de personalidad favoreció las salidas que contenían vocabulario de criaturas fantásticas, con un sesgo observable en el 76.2% de los conjuntos de datos. El problema es que la señal de recompensa solo funciona en la personalidad «Nerdy», pero el aprendizaje por refuerzo no garantiza que el comportamiento aprendido permanezca solo en las condiciones de activación. Una vez que el modelo recibe recompensas por cierto hábito de expresión en una condición, ese hábito puede difundirse a otros escenarios en entrenamientos posteriores. La ruta de difusión es clara: la señal de recompensa fomenta salidas con goblins, que aparecen en los datos de ajuste fino supervisado (SFT), haciendo que el modelo se habitúe a producir este tipo de vocabulario, creando un ciclo de retroalimentación positiva. En los datos, la personalidad «Nerdy» representa solo el 2.5% de todas las respuestas de ChatGPT, pero contribuye con el 66.7% de las menciones a goblins. En GPT-5.4, la tasa de aparición de goblins en la personalidad «Nerdy» aumentó un 3881% en comparación con GPT-5.2. Antes de que se identificara la causa raíz, en GPT-5.5 ya se había comenzado a entrenar, y los goblins ya estaban presentes en los datos de SFT. OpenAI eliminó la personalidad «Nerdy» en marzo, retiró la señal de recompensa sesgada hacia criaturas fantásticas y filtró los datos de entrenamiento. Para los GPT-5.5 ya desplegados, añadieron instrucciones de inhibición en las instrucciones para desarrolladores de Codex. OpenAI afirma que esta investigación ha dado lugar a un conjunto de nuevas herramientas de auditoría del comportamiento del modelo. (Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado