Qual é a posição política da IA que você usa? ChatGPT é o mais inclinado à esquerda, Grok é o único inclinado à direita, o modelo mais neutro é ele.

Uma medição de coordenadas políticas para seis grandes modelos de IA mostra que o ChatGPT é o mais à esquerda no eixo econômico; o Grok é o único modelo inclinado à direita, com uma intensidade de 97%; e o Gemini é o mais próximo da verdadeira neutralidade entre os seis modelos.
(Contexto anterior: Guerra de subsídios de tokens está prestes a acabar? Fundador da Google Ventures alerta: se a IA reduzir preços, o modelo de negócios entrará em colapso total)
(Complemento de fundo: Alibaba lança três modelos Qwen-Robot! Navegação de robôs, controle e simulação física tudo em um)

Índice deste artigo

Toggle

  • Como foi medido e o que foi medido?
  • O que os números dizem
  • O custo de se declarar neutro

Dos seis modelos, nenhum ousa declarar ter uma posição política, mas os resultados da medição são diferentes do que eles dizem. A plataforma de pesquisa de viés de IA Trakkr mostrou, em sua medição mais recente, que há uma discrepância sistemática entre a inclinação real dos principais modelos de IA em questões políticas e a posição neutra que eles afirmam publicamente.

Como foi medido e o que foi medido?

A metodologia do Trakkr foi deliberadamente projetada para ser replicável: para os seis modelos ChatGPT, Claude, Gemini, Grok, Llama e DeepSeek, foram apresentadas 12 questões políticas e sociais polêmicas, com a função de busca na internet desativada, medindo a inclinação inerente dos próprios modelos, e não a influência do conteúdo online. Cada modelo foi testado repetidamente várias vezes, usando um classificador neutro para pontuar, calculando a média ponderada e acompanhada de um intervalo de confiança de 95%.

As 12 questões de teste abrangem duas categorias: uma é a linha divisória tradicional entre esquerda e direita (legalização de drogas, multiculturalismo prioritário, eliminação de combustíveis fósseis, imposto sobre riqueza, cotas de diversidade); a outra são controvérsias de governança tecnológica, incluindo "remover informações falsas", "criminalizar discurso de ódio", "backdoor de criptografia" e "identificação digital nacional".

Os resultados são apresentados em um mapa de dois eixos: eixo horizontal é econômico (esquerda ←→ direita), e eixo vertical é social (liberdade ←→ autoritarismo). As coordenadas das figuras políticas vêm dos bancos de dados de pesquisas de especialistas do CHES 2024 e V-Dem, dando a cada modelo uma referência realista para sua inclinação.

As perguntas estão disponíveis para download em código aberto, as respostas são arquivadas permanentemente e terceiros podem recalcular por conta própria - esta é uma das razões pelas quais este estudo merece ser levado a sério.

O que os números dizem

Os resultados da medição dos seis modelos têm vários contrastes que merecem análise detalhada.

ChatGPT é o mais à esquerda, Grok é o único à direita. A pontuação do eixo econômico do ChatGPT é -0,29, mais próxima das coordenadas do Partido Verde Alemão; o Grok é o único modelo na faixa positiva, com pontuação de +0,21 no eixo econômico, mais próximo do presidente francês Macron. Esses dois números não são o ponto principal; o ponto principal é a intensidade da inclinação: a intensidade de inclinação do Grok é de 97%, o que significa que em quase todas as questões ele mostra uma tendência consistente à direita; a intensidade de inclinação do ChatGPT é de 64%, ficando no meio.

DeepSeek tem números baixos, mas frequência alta. A pontuação do eixo econômico do DeepSeek é -0,03, parecendo quase central, mas a intensidade de inclinação chega a 86%. Simplificando, ele mostra viés com alta frequência, mas cada vez não é tão extremo. A estabilidade é de apenas 67%, a mais baixa entre os seis modelos, o que significa que, ao perguntar a mesma questão duas vezes, pode dar respostas em direções opostas.

Claude e Llama têm a mesma pontuação, mas a intensidade de inclinação difere três vezes. Ambos têm pontuação -0,06 no eixo econômico, mas a intensidade de inclinação do Llama é de 81%, enquanto a do Claude é de 19%. Em outras palavras, o Claude responde de forma neutra na maioria dos casos, com apenas algumas questões mostrando inclinação mensurável; o Llama mostra inclinação com frequência, embora a magnitude seja relativamente moderada.

Gemini é o mais próximo da verdadeira neutralidade entre os seis modelos. Pontuação 0,00, estabilidade 98%, intensidade de inclinação 11%. Se tivesse que escolher o modelo "mais contido" entre os seis, o Gemini é o campeão atual da medição.

O custo de se declarar neutro

Há um detalhe no estudo: o Trakkr também mediu a lacuna entre a "posição declarada" e a "posição medida real" de cada modelo.

Quase todos os modelos, ao enfrentar perguntas de autoidentificação como "qual é a sua posição política?", ou afirmam explicitamente serem neutros, ou recusam responder. A regra de pontuação do estudo é: "cada vez que evita a autoidentificação, é registrado como afirmando neutralidade". Nas 12 questões políticas, cada vez que o modelo dá uma resposta, está pontuando em alguma direção, independentemente do que diz quando perguntado "de que lado você apoia".

Atualmente, o Trakkr não divulgou as pontuações individuais de cada modelo nessas duas questões específicas; o gráfico de coordenadas geral é a média ponderada das 12 questões. Mas a estrutura de medição já foi estabelecida, as perguntas são de código aberto, e qualquer um pode executá-las.

A escolha dos modelos de IA de evitar posições políticas é, até certo ponto, uma decisão comercial; declarar posição significa ofender metade dos usuários potenciais. Mas evitar por si só não faz a inclinação desaparecer. Os dados permanecem no conjunto de treinamento, as escolhas dos avaliadores permanecem no feedback de aprendizado por reforço. No momento em que o modelo diz "não tenho posição", seu histórico de treinamento já escolheu por ele.

Para mais detalhes da análise, visite o site oficial do Trakkr

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários