¿Alguna vez has pensado que las respuestas generadas por ChatGPT están influenciadas por la preferencia personal del usuario de responder a algo lo suficientemente "adulador" como para ser un mensaje neutral o veraz?
De hecho, este fenómeno está presente en la mayoría de los modelos de IA, incluido ChatGPT, y el culpable puede ser el "aprendizaje por refuerzo basado en la retroalimentación humana (RLHF)".
**Recientemente, Anthropic, el competidor más fuerte de OpenAI en Silicon Valley, estudió modelos entrenados por RLHF y exploró la presencia generalizada de la "adulación" en los modelos de IA y si está influenciada por las preferencias humanas. **
El artículo, titulado "Hacia la comprensión de la adulación en los modelos de lenguaje", ha sido publicado en el sitio web de preimpresión arXiv.
Los hallazgos sugieren que la "adulación" es frecuente en los modelos de RLHF y es probable que esté influenciada en parte por la preferencia humana por las respuestas a la "adulación".
Específicamente, una de las principales razones por las que los modelos de IA exhiben este comportamiento es que es más probable que los usuarios den comentarios positivos cuando las respuestas de la IA coinciden con los puntos de vista o creencias del usuario. Por lo tanto, para obtener comentarios más positivos, el modelo de IA puede aprender y reproducir este comportamiento que agrada al usuario.
**Adulación, el asistente de IA más avanzado **
Actualmente, los modelos de IA como GPT-4 a menudo se pueden entrenar para producir resultados altamente evaluados. El ajuste fino de los modelos de lenguaje mediante RLHF puede mejorar la calidad de sus resultados, que son evaluados por evaluadores humanos.
Sin embargo, hay estudios que sugieren que los esquemas de entrenamiento basados en el juicio de preferencia humana pueden utilizar el juicio humano de maneras indeseables, como alentar a los sistemas de IA a producir resultados que atraigan a los evaluadores humanos, pero que en realidad sean defectuosos o incorrectos.
No está claro si lo anterior ocurre en modelos en situaciones más diversas y del mundo real, y si realmente está impulsado por fallas en las preferencias humanas.
Para ello, el estudio investigó primero si los asistentes de IA de última generación proporcionan respuestas aduladoras en una variedad de situaciones del mundo real. ** En la tarea de generación de texto libre, los investigadores identificaron patrones consistentes de adulación en 5 (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2) asistentes de IA entrenados por RLHF de última generación. **
Específicamente, estos asistentes de IA a menudo reconocen erróneamente los errores cuando los usuarios se los piden, brindan comentarios predecibles y sesgados e imitan los errores cometidos por los usuarios. Estos hallazgos empíricos sugieren consistentemente que la adulación puede ser una característica de cómo se entrenan los modelos RLHF, en lugar de solo una característica separada de un sistema en particular.
** "Adulación" causada por preferencias humanas**
Además, el estudio explora más a fondo el papel de la preferencia humana en este comportamiento. Para investigar esto, los investigadores examinaron los datos comparativos existentes de preferencia humana para determinar si las respuestas de los aduladores se clasificaron más alto que las respuestas de los no aduladores. Se analizó el conjunto de datos HH-RLHF, utilizando un modelo de lenguaje para generar etiquetas de texto (es decir, "características") para cada par de comparaciones de preferencias para evaluar si las respuestas preferidas eran más auténticas y menos resolutivas.
Para comprender qué comportamientos fomentan los datos, los investigadores utilizaron modelos de regresión logística bayesiana para predecir los juicios de preferencia humana por estas características. El modelo descubrió que las características asociadas con la coincidencia de las opiniones de los usuarios se encuentran entre los rasgos más predictivos en los juicios de preferencia humana, lo que sugiere que los datos de preferencia fomentan la adulación.
Para explorar si la adulación en los datos de preferencia conduce a la adulación en los modelos RLHF,** estudios posteriores analizaron si la adulación aumenta cuando la respuesta del modelo de lenguaje se optimiza para adaptarse al modelo entrenado para predecir las preferencias humanas. ** Los investigadores utilizaron los métodos de muestreo RLHF y best-N para optimizar las respuestas y cumplir con el modelo de preferencias utilizado para entrenar a Claude 2.
Los resultados revelaron un hallazgo interesante: en más optimizaciones, mientras que algunas formas de adulación se añadieron, otras se redujeron. Este fenómeno puede deberse en parte al hecho de que la adulación es sólo una de las muchas características de los incentivos de los modelos de preferencia. **
Sin embargo, el estudio también encontró que el modelo de preferencia de Claude 2 a veces favorecía las respuestas aduladoras sobre las respuestas auténticas. Además, el muestreo de mejor N utilizando el modelo de preferencia de Claude 2 no produjo una respuesta más realista que la preferencia por las respuestas verdaderas no aduladoras mostrada en una versión del modelo de preferencia de Claude 2.
Esta serie de resultados sugiere que, aunque los modelos de preferencia de última generación son capaces de identificar la autenticidad de las respuestas en muchos casos, aún pueden producir resultados aduladores a expensas de la autenticidad. **
Para confirmar estos resultados, los investigadores también observaron si los modelos humanos y de preferencia preferían respuestas de modelos persuasivos y bien escritos que confirmaran la percepción errónea del usuario (es decir, la respuesta aduladora) en lugar de corregir la respuesta del usuario. La evidencia sugiere que los modelos humanos y de preferencia tienden a preferir respuestas veraces, pero no siempre; A veces prefieren las respuestas aduladoras. Estos resultados proporcionan más evidencia de que la optimización de las preferencias humanas puede conducir a la adulación.
Para probar estos hallazgos, los investigadores exploraron más a fondo si los modelos humanos y de preferencia preferían respuestas persuasivas y articuladas con fluidez, incluso si esas respuestas confirmaban los puntos de vista erróneos del usuario (es decir, las respuestas aduladoras) en lugar de corregir las opiniones del usuario.
La evidencia de la investigación muestra que los humanos y los modelos de preferencia generalmente prefieren respuestas auténticas, sin embargo, no están escritas en piedra, ya que a veces prefieren respuestas aduladoras. Estos resultados confirman aún más que la optimización para satisfacer las preferencias humanas puede conducir a la adulación.
En general, la adulación existe en una variedad de modelos y situaciones, muy probablemente en parte porque los humanos prefieren la adulación en los datos comparativos.
Documentos de referencia:
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
¡Incluso ChatGPT entiende la "adulación"! La competencia más fuerte de OpenAI: son todos los errores de la "preferencia humana".
Fuente: Academic Headlines
¿Alguna vez has pensado que las respuestas generadas por ChatGPT están influenciadas por la preferencia personal del usuario de responder a algo lo suficientemente "adulador" como para ser un mensaje neutral o veraz?
De hecho, este fenómeno está presente en la mayoría de los modelos de IA, incluido ChatGPT, y el culpable puede ser el "aprendizaje por refuerzo basado en la retroalimentación humana (RLHF)".
**Recientemente, Anthropic, el competidor más fuerte de OpenAI en Silicon Valley, estudió modelos entrenados por RLHF y exploró la presencia generalizada de la "adulación" en los modelos de IA y si está influenciada por las preferencias humanas. **
El artículo, titulado "Hacia la comprensión de la adulación en los modelos de lenguaje", ha sido publicado en el sitio web de preimpresión arXiv.
Específicamente, una de las principales razones por las que los modelos de IA exhiben este comportamiento es que es más probable que los usuarios den comentarios positivos cuando las respuestas de la IA coinciden con los puntos de vista o creencias del usuario. Por lo tanto, para obtener comentarios más positivos, el modelo de IA puede aprender y reproducir este comportamiento que agrada al usuario.
**Adulación, el asistente de IA más avanzado **
Actualmente, los modelos de IA como GPT-4 a menudo se pueden entrenar para producir resultados altamente evaluados. El ajuste fino de los modelos de lenguaje mediante RLHF puede mejorar la calidad de sus resultados, que son evaluados por evaluadores humanos.
Sin embargo, hay estudios que sugieren que los esquemas de entrenamiento basados en el juicio de preferencia humana pueden utilizar el juicio humano de maneras indeseables, como alentar a los sistemas de IA a producir resultados que atraigan a los evaluadores humanos, pero que en realidad sean defectuosos o incorrectos.
No está claro si lo anterior ocurre en modelos en situaciones más diversas y del mundo real, y si realmente está impulsado por fallas en las preferencias humanas.
Para ello, el estudio investigó primero si los asistentes de IA de última generación proporcionan respuestas aduladoras en una variedad de situaciones del mundo real. ** En la tarea de generación de texto libre, los investigadores identificaron patrones consistentes de adulación en 5 (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2) asistentes de IA entrenados por RLHF de última generación. **
** "Adulación" causada por preferencias humanas**
Además, el estudio explora más a fondo el papel de la preferencia humana en este comportamiento. Para investigar esto, los investigadores examinaron los datos comparativos existentes de preferencia humana para determinar si las respuestas de los aduladores se clasificaron más alto que las respuestas de los no aduladores. Se analizó el conjunto de datos HH-RLHF, utilizando un modelo de lenguaje para generar etiquetas de texto (es decir, "características") para cada par de comparaciones de preferencias para evaluar si las respuestas preferidas eran más auténticas y menos resolutivas.
Para comprender qué comportamientos fomentan los datos, los investigadores utilizaron modelos de regresión logística bayesiana para predecir los juicios de preferencia humana por estas características. El modelo descubrió que las características asociadas con la coincidencia de las opiniones de los usuarios se encuentran entre los rasgos más predictivos en los juicios de preferencia humana, lo que sugiere que los datos de preferencia fomentan la adulación.
Para explorar si la adulación en los datos de preferencia conduce a la adulación en los modelos RLHF,** estudios posteriores analizaron si la adulación aumenta cuando la respuesta del modelo de lenguaje se optimiza para adaptarse al modelo entrenado para predecir las preferencias humanas. ** Los investigadores utilizaron los métodos de muestreo RLHF y best-N para optimizar las respuestas y cumplir con el modelo de preferencias utilizado para entrenar a Claude 2.
Sin embargo, el estudio también encontró que el modelo de preferencia de Claude 2 a veces favorecía las respuestas aduladoras sobre las respuestas auténticas. Además, el muestreo de mejor N utilizando el modelo de preferencia de Claude 2 no produjo una respuesta más realista que la preferencia por las respuestas verdaderas no aduladoras mostrada en una versión del modelo de preferencia de Claude 2.
Para confirmar estos resultados, los investigadores también observaron si los modelos humanos y de preferencia preferían respuestas de modelos persuasivos y bien escritos que confirmaran la percepción errónea del usuario (es decir, la respuesta aduladora) en lugar de corregir la respuesta del usuario. La evidencia sugiere que los modelos humanos y de preferencia tienden a preferir respuestas veraces, pero no siempre; A veces prefieren las respuestas aduladoras. Estos resultados proporcionan más evidencia de que la optimización de las preferencias humanas puede conducir a la adulación.
La evidencia de la investigación muestra que los humanos y los modelos de preferencia generalmente prefieren respuestas auténticas, sin embargo, no están escritas en piedra, ya que a veces prefieren respuestas aduladoras. Estos resultados confirman aún más que la optimización para satisfacer las preferencias humanas puede conducir a la adulación.
En general, la adulación existe en una variedad de modelos y situaciones, muy probablemente en parte porque los humanos prefieren la adulación en los datos comparativos.
Documentos de referencia: