Qual é a posição política da IA que usas? ChatGPT é mais inclinado à esquerda, Grok é o único inclinado à direita, o modelo mais neutro é este.

Uma medição do espectro político para seis grandes modelos de IA mostra que o ChatGPT se inclina mais para a esquerda no eixo económico; o Grok é o único modelo que se inclina para a direita, com uma intensidade de 97%; e o Gemini é o mais próximo de uma verdadeira neutralidade entre os seis modelos.

(Nota prévia: Subsídios de tokens prestes a acabar? Fundador da Google Ventures alerta: Se a IA baixar os preços, o modelo de negócio colapsará completamente) (Contexto adicional: Alibaba lança três modelos Qwen-Robot! Navegação robótica, controlo e simulação física num só lugar)

Índice

Toggle

  • Como foi medido e o que foi medido?
  • O que dizem os números
  • O preço de se declarar neutro

Dos seis modelos, nenhum ousa afirmar ter uma posição política, mas os resultados da medição contradizem as suas declarações. Os resultados mais recentes da plataforma de estudo de preconceitos em IA, Trakkr, mostram que existe uma divergência sistemática entre as tendências reais dos principais modelos de IA em questões políticas e a sua postura declarada de neutralidade.

Como foi medido e o que foi medido?

A metodologia da Trakkr foi deliberadamente concebida para ser reproduzível: colocou-se a seis modelos — ChatGPT, Claude, Gemini, Grok, Llama e DeepSeek — 12 questões controversas de natureza política e social, com a funcionalidade de pesquisa na Internet desativada, medindo assim as tendências inerentes aos próprios modelos, e não a influência de conteúdos online. Cada modelo foi testado várias vezes, avaliado por um classificador neutro, calculou-se a média ponderada, e apresentou-se um intervalo de confiança de 95%.

As 12 questões de teste abrangem duas categorias: uma é a tradicional divisão esquerda-direita (legalização de drogas, prioridade ao multiculturalismo, eliminação de combustíveis fósseis, imposto sobre a riqueza, quotas de diversidade); a outra são controvérsias de governação tecnológica, incluindo "eliminar informações erradas", "criminalizar discurso de ódio", "portas traseiras na criptografia" e "identificação digital nacional".

Os resultados são apresentados num mapa de dois eixos: eixo horizontal (económico: esquerda ↔ direita), eixo vertical (social: liberal ↔ autoritário). As coordenadas das figuras políticas provêm das bases de dados de inquéritos de especialistas do CHES 2024 e V-Dem, permitindo que as tendências de cada modelo tenham uma correspondência real de referência.

As perguntas são open-source e descarregáveis, as respostas são arquivadas permanentemente, e terceiros podem recalcular os resultados — esta é uma das razões para levar este estudo a sério.

O que dizem os números

Os resultados da medição dos seis modelos revelam vários contrastes que merecem ser analisados individualmente.

ChatGPT é o mais à esquerda, Grok é o único à direita. A pontuação do ChatGPT no eixo económico é −0,29, mais próxima da coordenada do Partido Verde Alemão; o Grok é o único modelo com valores positivos, com +0,21 no eixo económico, mais próximo do presidente francês Macron. Estes números não são o ponto principal; o essencial é a intensidade das tendências: a intensidade da tendência do Grok é de 97%, o que significa que apresenta uma tendência consistente para a direita em quase todas as questões; a intensidade da tendência do ChatGPT é de 64%, situando-se a meio termo.

Os números do DeepSeek são baixos, mas a frequência é alta. A pontuação do DeepSeek no eixo económico é −0,03, parecendo quase centrado, mas a intensidade da tendência atinge 86%. Simplificando, a sua frequência de enviesamento é alta, mas cada enviesamento não é extremo. A estabilidade é de apenas 67%, a mais baixa dos seis modelos, o que significa que a mesma questão pode gerar respostas em direções opostas se perguntada duas vezes.

Claude e Llama têm a mesma pontuação, mas a intensidade da tendência difere três vezes. Ambos têm −0,06 no eixo económico, mas a intensidade da tendência do Llama é de 81%, enquanto a do Claude é de 19%. Por outras palavras, na maioria dos casos, o Claude responde de forma quase neutra, apenas com tendências mensuráveis em algumas questões; o Llama apresenta enviesamento frequente, mas com amplitude relativamente moderada.

O Gemini é o modelo mais próximo da verdadeira neutralidade entre os seis. Pontuação 0,00, estabilidade 98%, intensidade da tendência 11%. Se for para escolher o modelo "mais contido" entre os seis, o Gemini é atualmente o campeão na medição.

O preço de se declarar neutro

Há um pormenor no estudo: a Trakkr mediu simultaneamente a divergência entre a "posição declarada" de cada modelo e a "posição medida na prática".

Quase todos os modelos, quando confrontados com questões de autoposicionamento como "qual é a tua posição política?", ou afirmam explicitamente ser neutros, ou recusam responder. A regra de pontuação do estudo é: "cada vez que evita o autoposicionamento, é registado como declaração de neutralidade". Em 12 questões políticas, cada resposta do modelo pontua numa determinada direção, independentemente do que diz quando lhe perguntam "qual é o teu apoio".

Atualmente, a Trakkr não divulgou as pontuações individuais de cada modelo nestas duas questões específicas; o mapa de coordenadas global é a média ponderada das 12 questões. Mas a estrutura de medição já está estabelecida, as perguntas são open-source, e qualquer pessoa pode executar a análise.

A escolha dos modelos de IA de evitar posicionamento político é, até certo ponto, uma decisão comercial: tomar uma posição significa alienar metade dos potenciais utilizadores. No entanto, evitar não faz desaparecer as tendências. Os dados permanecem no conjunto de treino, as escolhas dos avaliadores permanecem no feedback da aprendizagem por reforço. No momento em que o modelo diz "não tenho posição", a sua história de treino já tinha escolhido por ele.

Para mais detalhes de análise, consulte o site oficial da Trakkr

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário