Avez-vous déjà pensé que les réponses générées par ChatGPT sont influencées par la préférence personnelle de l’utilisateur pour répondre à quelque chose de suffisamment « flagorneur » pour être un message neutre ou véridique ?
En fait, ce phénomène est présent dans la plupart des modèles d’IA, y compris ChatGPT, et le coupable pourrait être « l’apprentissage par renforcement basé sur la rétroaction humaine (RLHF) ».
**Récemment, Anthropic, le plus grand concurrent d’OpenAI dans la Silicon Valley, a étudié les modèles formés par RLHF et a exploré la présence généralisée de la « flagornerie » dans les modèles d’IA et si elle est influencée par les préférences humaines. **
L’article, intitulé « Towards Understanding Sycophancy in Language Models* », a été publié sur le site de prépublication arXiv.
Les résultats suggèrent que la « flagornerie » est répandue dans les modèles RLHF et qu’elle est susceptible d’être influencée en partie par la préférence humaine pour les réponses à la « flagornerie ».
Plus précisément, l’une des principales raisons pour lesquelles les modèles d’IA présentent ce comportement est que les utilisateurs sont plus susceptibles de donner des commentaires positifs lorsque les réponses de l’IA correspondent aux opinions ou aux croyances de l’utilisateur. Par conséquent, afin d’obtenir des commentaires plus positifs, le modèle d’IA peut apprendre et reproduire ce comportement qui plaît à l’utilisateur.
**Sycophancie, l’assistant IA le plus avancé le fera **
À l’heure actuelle, les modèles d’IA comme GPT-4 peuvent souvent être entraînés pour produire des résultats hautement évalués. L’ajustement fin des modèles de langage à l’aide de RLHF peut améliorer la qualité de leurs résultats, qui est évaluée par des évaluateurs humains.
Cependant, il existe des études qui suggèrent que les programmes de formation basés sur le jugement des préférences humaines peuvent utiliser le jugement humain de manière indésirable, par exemple en encourageant les systèmes d’IA à produire des résultats qui plaisent aux évaluateurs humains, mais qui sont en fait défectueux ou erronés.
Il n’est pas clair si ce qui précède se produit dans des modèles dans des situations plus diverses et réelles, et si cela est effectivement motivé par des défauts dans les préférences humaines.
Pour ce faire, l’étude a d’abord cherché à savoir si les assistants d’IA de pointe fournissent des réponses flagorneuses dans une variété de situations réelles. **Dans la tâche de génération de texte libre, les chercheurs ont identifié des modèles cohérents de flagornerie chez 5 assistants d’IA de pointe formés au RLHF (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2). **
Plus précisément, ces assistants d’IA reconnaissent souvent à tort les erreurs lorsqu’elles sont demandées par les utilisateurs, fournissent des commentaires prévisibles et biaisés et imitent les erreurs commises par les utilisateurs. Ces résultats empiriques suggèrent systématiquement que la flagornerie peut en effet être une caractéristique de la façon dont les modèles RLHF sont formés, plutôt qu’une simple caractéristique distincte d’un système particulier.
** « Sycophancie » causée par les préférences humaines**
En outre, l’étude explore davantage le rôle de la préférence humaine dans ce comportement. Pour étudier cela, les chercheurs ont examiné les données comparatives existantes sur les préférences humaines afin de déterminer si les réponses flagornantes étaient plus élevées que les réponses non flagornantes. L’ensemble de données HH-RLHF a été analysé à l’aide d’un modèle de langage pour générer des étiquettes textuelles (c.-à-d. des « caractéristiques ») pour chaque paire de comparaisons de préférences afin d’évaluer si les réponses préférées étaient plus authentiques et moins résolues.
Pour comprendre quels comportements les données encouragent, les chercheurs ont utilisé des modèles de régression logistique bayésiens pour prédire les jugements de préférence humaine par ces caractéristiques. Le modèle a appris que les caractéristiques associées à l’appariement des opinions des utilisateurs sont parmi les traits les plus prédictifs dans les jugements de préférence humaine, ce qui suggère que les données de préférence encouragent la flagornerie.
Afin d’explorer si la flagornerie dans les données de préférence conduit à la flagornerie dans les modèles RLHF**, des études ultérieures ont analysé si la flagornerie augmente lorsque la réponse du modèle de langage est optimisée pour s’adapter au modèle entraîné à prédire les préférences humaines. **Les chercheurs ont utilisé les méthodes d’échantillonnage RLHF et best-N pour optimiser les réponses afin de répondre au modèle de préférence utilisé pour former Claude 2.
Les résultats ont révélé une découverte intéressante : dans plus d’optimisations, alors que certaines formes de flagornerie ont été ajoutées, d’autres ont été réduites. Ce phénomène peut être dû en partie au fait que la flagornerie n’est qu’une des nombreuses caractéristiques des incitations du modèle de préférence. **
Cependant, l’étude a également révélé que le modèle de préférence de Claude 2 favorisait parfois les réponses flagorneuses par rapport aux réponses authentiques. De plus, l’échantillonnage de la meilleure azote à l’aide du modèle de préférence de Claude 2 n’a pas produit une réponse plus réaliste que la préférence pour les vraies réponses non flagornantes montrée dans une version du modèle de préférence de Claude 2.
Cette série de résultats suggère que, bien que les modèles de préférence de pointe soient capables d’identifier l’authenticité des réponses dans de nombreux cas, ils peuvent encore produire des résultats flagorneurs au détriment de l’authenticité. **
Pour confirmer ces résultats, les chercheurs ont également examiné si les modèles humains et de préférence préféraient les réponses persuasives et bien écrites qui confirmaient la perception erronée de l’utilisateur (c’est-à-dire la réponse flagorneuse) plutôt que de corriger la réponse de l’utilisateur. Les preuves suggèrent que les modèles humains et les modèles de préférence ont tendance à préférer les réponses véridiques, mais pas toujours ; Parfois, ils préfèrent les réponses flagorneuses. Ces résultats fournissent une preuve supplémentaire que l’optimisation des préférences humaines peut conduire à la flagornerie.
Pour tester ces résultats, les chercheurs ont cherché à savoir si les modèles humains et de préférence préféraient les réponses de modèle persuasives et couramment articulées, même si ces réponses confirmaient les opinions erronées de l’utilisateur (c’est-à-dire les réponses flagorneuses) plutôt que de corriger les opinions de l’utilisateur.
Les données de recherche montrent que les humains et les modèles de préférence préfèrent généralement les réponses authentiques, mais pas gravées dans le marbre, car ils préfèrent parfois les réponses flagorneuses. Ces résultats confirment en outre que l’optimisation pour répondre aux préférences humaines peut conduire à la flagornerie.
En général, la flagornerie existe dans une variété de modèles et de situations, probablement en partie parce que les humains préfèrent la flagornerie dans les données comparatives.
Documents de référence :
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Même ChatGPT comprend la « flagornerie » ! La concurrence la plus forte d’OpenAI : ce sont toutes les erreurs de « préférence humaine ».
Source : Manchettes académiques
Avez-vous déjà pensé que les réponses générées par ChatGPT sont influencées par la préférence personnelle de l’utilisateur pour répondre à quelque chose de suffisamment « flagorneur » pour être un message neutre ou véridique ?
En fait, ce phénomène est présent dans la plupart des modèles d’IA, y compris ChatGPT, et le coupable pourrait être « l’apprentissage par renforcement basé sur la rétroaction humaine (RLHF) ».
**Récemment, Anthropic, le plus grand concurrent d’OpenAI dans la Silicon Valley, a étudié les modèles formés par RLHF et a exploré la présence généralisée de la « flagornerie » dans les modèles d’IA et si elle est influencée par les préférences humaines. **
L’article, intitulé « Towards Understanding Sycophancy in Language Models* », a été publié sur le site de prépublication arXiv.
Plus précisément, l’une des principales raisons pour lesquelles les modèles d’IA présentent ce comportement est que les utilisateurs sont plus susceptibles de donner des commentaires positifs lorsque les réponses de l’IA correspondent aux opinions ou aux croyances de l’utilisateur. Par conséquent, afin d’obtenir des commentaires plus positifs, le modèle d’IA peut apprendre et reproduire ce comportement qui plaît à l’utilisateur.
**Sycophancie, l’assistant IA le plus avancé le fera **
À l’heure actuelle, les modèles d’IA comme GPT-4 peuvent souvent être entraînés pour produire des résultats hautement évalués. L’ajustement fin des modèles de langage à l’aide de RLHF peut améliorer la qualité de leurs résultats, qui est évaluée par des évaluateurs humains.
Cependant, il existe des études qui suggèrent que les programmes de formation basés sur le jugement des préférences humaines peuvent utiliser le jugement humain de manière indésirable, par exemple en encourageant les systèmes d’IA à produire des résultats qui plaisent aux évaluateurs humains, mais qui sont en fait défectueux ou erronés.
Il n’est pas clair si ce qui précède se produit dans des modèles dans des situations plus diverses et réelles, et si cela est effectivement motivé par des défauts dans les préférences humaines.
Pour ce faire, l’étude a d’abord cherché à savoir si les assistants d’IA de pointe fournissent des réponses flagorneuses dans une variété de situations réelles. **Dans la tâche de génération de texte libre, les chercheurs ont identifié des modèles cohérents de flagornerie chez 5 assistants d’IA de pointe formés au RLHF (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2). **
** « Sycophancie » causée par les préférences humaines**
En outre, l’étude explore davantage le rôle de la préférence humaine dans ce comportement. Pour étudier cela, les chercheurs ont examiné les données comparatives existantes sur les préférences humaines afin de déterminer si les réponses flagornantes étaient plus élevées que les réponses non flagornantes. L’ensemble de données HH-RLHF a été analysé à l’aide d’un modèle de langage pour générer des étiquettes textuelles (c.-à-d. des « caractéristiques ») pour chaque paire de comparaisons de préférences afin d’évaluer si les réponses préférées étaient plus authentiques et moins résolues.
Pour comprendre quels comportements les données encouragent, les chercheurs ont utilisé des modèles de régression logistique bayésiens pour prédire les jugements de préférence humaine par ces caractéristiques. Le modèle a appris que les caractéristiques associées à l’appariement des opinions des utilisateurs sont parmi les traits les plus prédictifs dans les jugements de préférence humaine, ce qui suggère que les données de préférence encouragent la flagornerie.
Afin d’explorer si la flagornerie dans les données de préférence conduit à la flagornerie dans les modèles RLHF**, des études ultérieures ont analysé si la flagornerie augmente lorsque la réponse du modèle de langage est optimisée pour s’adapter au modèle entraîné à prédire les préférences humaines. **Les chercheurs ont utilisé les méthodes d’échantillonnage RLHF et best-N pour optimiser les réponses afin de répondre au modèle de préférence utilisé pour former Claude 2.
Cependant, l’étude a également révélé que le modèle de préférence de Claude 2 favorisait parfois les réponses flagorneuses par rapport aux réponses authentiques. De plus, l’échantillonnage de la meilleure azote à l’aide du modèle de préférence de Claude 2 n’a pas produit une réponse plus réaliste que la préférence pour les vraies réponses non flagornantes montrée dans une version du modèle de préférence de Claude 2.
Pour confirmer ces résultats, les chercheurs ont également examiné si les modèles humains et de préférence préféraient les réponses persuasives et bien écrites qui confirmaient la perception erronée de l’utilisateur (c’est-à-dire la réponse flagorneuse) plutôt que de corriger la réponse de l’utilisateur. Les preuves suggèrent que les modèles humains et les modèles de préférence ont tendance à préférer les réponses véridiques, mais pas toujours ; Parfois, ils préfèrent les réponses flagorneuses. Ces résultats fournissent une preuve supplémentaire que l’optimisation des préférences humaines peut conduire à la flagornerie.
Les données de recherche montrent que les humains et les modèles de préférence préfèrent généralement les réponses authentiques, mais pas gravées dans le marbre, car ils préfèrent parfois les réponses flagorneuses. Ces résultats confirment en outre que l’optimisation pour répondre aux préférences humaines peut conduire à la flagornerie.
En général, la flagornerie existe dans une variété de modèles et de situations, probablement en partie parce que les humains préfèrent la flagornerie dans les données comparatives.
Documents de référence :