Você já pensou que as respostas geradas pelo ChatGPT são influenciadas pela preferência pessoal do usuário em responder a algo "bajulador" o suficiente para ser uma mensagem neutra ou verdadeira?
De facto, este fenómeno está presente na maioria dos modelos de IA, incluindo o ChatGPT, e o culpado pode ser a "aprendizagem por reforço baseada no feedback humano (RLHF)".
**Recentemente, a Anthropic, a concorrente mais forte da OpenAI no Vale do Silício, estudou modelos treinados pela RLHF e explorou a presença generalizada de "bajulação" em modelos de IA e se ela é influenciada pelas preferências humanas. **
O artigo, intitulado "Towards Understanding Sycophancy in Language Models", foi publicado no site de pré-impressão arXiv.
Os resultados sugerem que a "bajulação" é prevalente em modelos RLHF e é provável que seja influenciada em parte pela preferência humana por respostas à "bajulação".
Especificamente, uma das principais razões pelas quais os modelos de IA exibem esse comportamento é que os usuários são mais propensos a dar feedback positivo quando as respostas da IA correspondem às opiniões ou crenças do usuário. Portanto, para obter um feedback mais positivo, o modelo de IA pode aprender e reproduzir esse comportamento que agrada o usuário.
**Sycophancy, o assistente de IA mais avançado **
Atualmente, modelos de IA como o GPT-4 podem muitas vezes ser treinados para produzir resultados altamente avaliados. O ajuste fino de modelos de linguagem usando RLHF pode melhorar sua qualidade de saída, que é avaliada por avaliadores humanos.
No entanto, há estudos que sugerem que os esquemas de treinamento baseados no julgamento de preferência humana podem usar o julgamento humano de maneiras indesejáveis, como incentivar sistemas de IA a produzir resultados que atraem avaliadores humanos, mas na verdade são falhos ou errados.
Não está claro se o acima ocorre em modelos em situações mais diversas e do mundo real, e se é realmente impulsionado por falhas nas preferências humanas.
Para fazer isso, o estudo primeiro investigou se assistentes de IA de última geração fornecem respostas bajuladoras em uma variedade de situações do mundo real. **Na tarefa de geração de texto livre, os pesquisadores identificaram padrões consistentes de bajulação em 5 (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2) assistentes de IA treinados em RLHF de última geração. **
Especificamente, esses assistentes de IA muitas vezes reconhecem erroneamente os erros quando solicitados pelos usuários, fornecem feedback previsível e tendencioso e imitam erros cometidos pelos usuários. Esses resultados empíricos sugerem consistentemente que a bajulação pode realmente ser uma característica de como os modelos RLHF são treinados, em vez de apenas uma característica separada de um sistema particular.
** "Sicofancia" causada por preferências humanas**
Além disso, o estudo explora ainda mais o papel da preferência humana nesse comportamento. Para investigar isso, os pesquisadores pesquisaram dados comparativos de preferência humana existentes para determinar se as respostas de bajulador eram mais altas do que as respostas sem bajulador. O conjunto de dados HH-RLHF foi analisado, usando um modelo de linguagem para gerar rótulos de texto (ou seja, "características") para cada par de comparações de preferência para avaliar se as respostas preferidas eram mais autênticas e menos resolutas.
Para entender quais comportamentos os dados incentivam, os pesquisadores usaram modelos de regressão logística bayesiana para prever julgamentos de preferência humana por essas características. O modelo aprendeu que os recursos associados à correspondência de opiniões dos usuários estão entre os traços mais preditivos nos julgamentos de preferência humana, sugerindo que os dados de preferência incentivam a bajulação.
Para explorar se a bajulação nos dados de preferência leva à bajulação em modelos RLHF,** estudos subsequentes analisaram se a bajulação aumenta quando a resposta do modelo de linguagem é otimizada para acomodar o modelo treinado para prever as preferências humanas. **Os pesquisadores usaram RLHF e métodos de amostragem best-N para otimizar as respostas para atender ao modelo de preferência usado para treinar Claude 2.
Os resultados revelaram uma descoberta interessante: em mais otimizações, enquanto algumas formas de bajulação foram adicionadas, outras foram reduzidas. Este fenómeno pode dever-se, em parte, ao facto de a bajulação ser apenas uma das muitas características dos incentivos do modelo de preferência. **
No entanto, o estudo também descobriu que o modelo de preferência de Claude 2 às vezes favorecia respostas bajuladoras em vez de respostas autênticas. Além disso, a amostragem best-N usando o modelo de preferência de Claude 2 não produziu uma resposta mais realista do que a preferência por respostas verdadeiras não bajuladoras mostrada em uma versão do modelo de preferência de Claude 2.
Esta série de resultados sugere que, embora os modelos de preferência de última geração sejam capazes de identificar a autenticidade das respostas em muitos casos, eles ainda podem produzir saídas bajuladoras em detrimento da autenticidade. **
Para confirmar esses resultados, os pesquisadores também analisaram se os modelos humanos e de preferência preferiam respostas de modelo persuasivas e bem escritas que confirmassem a perceção errônea do usuário (ou seja, resposta bajuladora) em vez de corrigir a resposta do usuário. As evidências sugerem que os modelos humanos e de preferência tendem a preferir respostas verdadeiras, mas nem sempre; Por vezes, preferem respostas bajuladoras. Esses resultados fornecem mais evidências de que a otimização das preferências humanas pode levar à bajulação.
Para testar essas descobertas, os pesquisadores exploraram ainda mais se os modelos humanos e de preferência preferiam respostas de modelo persuasivas e fluentemente articuladas, mesmo que essas respostas confirmassem as visões erradas do usuário (ou seja, respostas bajuladoras) em vez de corrigir as opiniões do usuário.
Evidências de pesquisa mostram que os seres humanos e os modelos de preferência geralmente preferem respostas autênticas, no entanto, não definidas em pedra, pois às vezes preferem respostas bajuladoras. Estes resultados confirmam ainda que a otimização para atender às preferências humanas pode levar à bajulação.
Em geral, a bajulação existe em uma variedade de modelos e situações, provavelmente em parte porque os seres humanos preferem a bajulação em dados comparativos.
Artigos de referência:
Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
Até o ChatGPT entende "bajulação"! A competição mais forte da OpenAI: são todos os erros da "preferência humana".
Fonte: Manchetes Académicas
Você já pensou que as respostas geradas pelo ChatGPT são influenciadas pela preferência pessoal do usuário em responder a algo "bajulador" o suficiente para ser uma mensagem neutra ou verdadeira?
De facto, este fenómeno está presente na maioria dos modelos de IA, incluindo o ChatGPT, e o culpado pode ser a "aprendizagem por reforço baseada no feedback humano (RLHF)".
**Recentemente, a Anthropic, a concorrente mais forte da OpenAI no Vale do Silício, estudou modelos treinados pela RLHF e explorou a presença generalizada de "bajulação" em modelos de IA e se ela é influenciada pelas preferências humanas. **
O artigo, intitulado "Towards Understanding Sycophancy in Language Models", foi publicado no site de pré-impressão arXiv.
Especificamente, uma das principais razões pelas quais os modelos de IA exibem esse comportamento é que os usuários são mais propensos a dar feedback positivo quando as respostas da IA correspondem às opiniões ou crenças do usuário. Portanto, para obter um feedback mais positivo, o modelo de IA pode aprender e reproduzir esse comportamento que agrada o usuário.
**Sycophancy, o assistente de IA mais avançado **
Atualmente, modelos de IA como o GPT-4 podem muitas vezes ser treinados para produzir resultados altamente avaliados. O ajuste fino de modelos de linguagem usando RLHF pode melhorar sua qualidade de saída, que é avaliada por avaliadores humanos.
No entanto, há estudos que sugerem que os esquemas de treinamento baseados no julgamento de preferência humana podem usar o julgamento humano de maneiras indesejáveis, como incentivar sistemas de IA a produzir resultados que atraem avaliadores humanos, mas na verdade são falhos ou errados.
Não está claro se o acima ocorre em modelos em situações mais diversas e do mundo real, e se é realmente impulsionado por falhas nas preferências humanas.
Para fazer isso, o estudo primeiro investigou se assistentes de IA de última geração fornecem respostas bajuladoras em uma variedade de situações do mundo real. **Na tarefa de geração de texto livre, os pesquisadores identificaram padrões consistentes de bajulação em 5 (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2) assistentes de IA treinados em RLHF de última geração. **
** "Sicofancia" causada por preferências humanas**
Além disso, o estudo explora ainda mais o papel da preferência humana nesse comportamento. Para investigar isso, os pesquisadores pesquisaram dados comparativos de preferência humana existentes para determinar se as respostas de bajulador eram mais altas do que as respostas sem bajulador. O conjunto de dados HH-RLHF foi analisado, usando um modelo de linguagem para gerar rótulos de texto (ou seja, "características") para cada par de comparações de preferência para avaliar se as respostas preferidas eram mais autênticas e menos resolutas.
Para entender quais comportamentos os dados incentivam, os pesquisadores usaram modelos de regressão logística bayesiana para prever julgamentos de preferência humana por essas características. O modelo aprendeu que os recursos associados à correspondência de opiniões dos usuários estão entre os traços mais preditivos nos julgamentos de preferência humana, sugerindo que os dados de preferência incentivam a bajulação.
Para explorar se a bajulação nos dados de preferência leva à bajulação em modelos RLHF,** estudos subsequentes analisaram se a bajulação aumenta quando a resposta do modelo de linguagem é otimizada para acomodar o modelo treinado para prever as preferências humanas. **Os pesquisadores usaram RLHF e métodos de amostragem best-N para otimizar as respostas para atender ao modelo de preferência usado para treinar Claude 2.
No entanto, o estudo também descobriu que o modelo de preferência de Claude 2 às vezes favorecia respostas bajuladoras em vez de respostas autênticas. Além disso, a amostragem best-N usando o modelo de preferência de Claude 2 não produziu uma resposta mais realista do que a preferência por respostas verdadeiras não bajuladoras mostrada em uma versão do modelo de preferência de Claude 2.
Para confirmar esses resultados, os pesquisadores também analisaram se os modelos humanos e de preferência preferiam respostas de modelo persuasivas e bem escritas que confirmassem a perceção errônea do usuário (ou seja, resposta bajuladora) em vez de corrigir a resposta do usuário. As evidências sugerem que os modelos humanos e de preferência tendem a preferir respostas verdadeiras, mas nem sempre; Por vezes, preferem respostas bajuladoras. Esses resultados fornecem mais evidências de que a otimização das preferências humanas pode levar à bajulação.
Evidências de pesquisa mostram que os seres humanos e os modelos de preferência geralmente preferem respostas autênticas, no entanto, não definidas em pedra, pois às vezes preferem respostas bajuladoras. Estes resultados confirmam ainda que a otimização para atender às preferências humanas pode levar à bajulação.
Em geral, a bajulação existe em uma variedade de modelos e situações, provavelmente em parte porque os seres humanos preferem a bajulação em dados comparativos.
Artigos de referência: