Quelle est la position politique de l'IA que tu utilises ? ChatGPT est le plus à gauche, Grok est le seul à droite, et le modèle le plus neutre est celui-ci.

Une mesure du positionnement politique de six grands modèles d'IA montre que ChatGPT est le plus à gauche sur l'axe économique ; Grok est le seul modèle à droite, avec une intensité de biais de 97 % ; et Gemini est le plus proche d'une véritable neutralité parmi les six modèles.
(Contexte précédent : Les subventions de tokens vont-elles s'éteindre ? Un fondateur de Google Ventures avertit : si les prix de l'IA baissent, le modèle économique s'effondrera complètement)
(Contexte complémentaire : Alibaba lance les trois modèles Qwen-Robot ! Navigation robotique, contrôle, simulation physique, tout en un)

Table des matières

Toggle

  • Comment a-t-on mesuré et qu'a-t-on mesuré ?
  • Que disent les chiffres
  • Le prix de la prétendue neutralité

Parmi les six modèles, aucun n'ose dire qu'il a une position politique, mais les résultats de mesure diffèrent de ce qu'ils affirment. Les dernières mesures de Trakkr, une plateforme d'étude des biais de l'IA, montrent qu'il existe un écart systématique entre les tendances réelles des modèles d'IA dominants sur les questions politiques et leur position déclarée de neutralité.

Comment a-t-on mesuré et qu'a-t-on mesuré ?

La méthodologie de Trakkr est délibérément conçue pour être reproductible : pour les six modèles ChatGPT, Claude, Gemini, Grok, Llama, DeepSeek, 12 questions politiques et sociales controversées sont posées, la fonction de recherche en ligne est désactivée, on mesure les tendances intrinsèques des modèles eux-mêmes, plutôt que l'influence du contenu en ligne. Chaque modèle est testé plusieurs fois, noté par un classifieur neutre, on calcule une moyenne pondérée, avec un intervalle de confiance de 95%.

Les 12 questions de test couvrent deux catégories : l'une est la ligne de partage traditionnelle gauche-droite (légalisation des drogues, priorité multiculturelle, élimination des combustibles fossiles, taxe sur la fortune, quotas multiculturels) ; l'autre concerne les controverses sur la gouvernance technologique, y compris « supprimer les informations erronées », « criminaliser les discours de haine », « portes dérobées dans le chiffrement », « identité numérique nationale ».

Les résultats sont présentés sur un graphique à deux axes : l'axe horizontal est économique (gauche ←→ droite), l'axe vertical est social (libre ←→ autoritaire). Les coordonnées des personnalités politiques proviennent des bases de données d'expertise CHES 2024 et V-Dem, donnant aux biais de chaque modèle une correspondance réelle.

Les questions sont disponibles en open source et peuvent être téléchargées, les réponses sont archivées en permanence, et des tiers peuvent recalculer eux-mêmes. C'est l'une des raisons pour lesquelles cette étude mérite d'être prise au sérieux.

Que disent les chiffres

Les résultats de mesure des six modèles présentent plusieurs contrastes à analyser un par un.

ChatGPT est le plus à gauche, Grok est le seul à droite. Le score de l'axe économique de ChatGPT est de -0,29, le plus proche des coordonnées des Verts allemands ; Grok est le seul modèle à se situer dans l'intervalle positif, avec un score de +0,21 sur l'axe économique, le plus proche du président français Emmanuel Macron. Ces deux chiffres ne sont pas l'essentiel ; l'essentiel est leur intensité de biais : celle de Grok est de 97 %, ce qui signifie qu'il montre une tendance constante à droite sur presque toutes les questions ; celle de ChatGPT est de 64 %, se situant dans la moyenne.

Le score de DeepSeek est très bas, mais la fréquence est élevée. Le score de DeepSeek sur l'axe économique est de -0,03, paraissant presque centré, mais l'intensité de biais atteint 86 %. En termes simples, il présente des biais très fréquemment, mais chaque fois avec une amplitude moins extrême. Sa stabilité n'est que de 67 %, la plus faible des six modèles, ce qui signifie que deux questions sur le même sujet peuvent donner des réponses de sens opposé.

Claude et Llama ont le même score, mais l'intensité de biais diffère du triple. Les deux ont un score de -0,06 sur l'axe économique, mais Llama a une intensité de biais de 81 %, Claude de 19 %. Autrement dit, Claude répond dans la plupart des cas de manière proche de la neutralité, seules quelques questions montrent des biais mesurables ; Llama présente fréquemment des biais, mais avec une amplitude relativement modérée.

Gemini est le plus proche d'une véritable neutralité parmi les six modèles. Score 0,00, stabilité 98 %, intensité de biais 11 %. Si l'on devait choisir un modèle « le plus sobre » parmi les six, Gemini est actuellement le champion des mesures.

Le prix de la prétendue neutralité

Un détail de l'étude : Trakkr a également mesuré l'écart entre la « position déclarée » et la « position mesurée réelle » pour chaque modèle.

Presque tous les modèles, lorsqu'ils sont confrontés à des questions d'auto-positionnement comme « quelle est votre position politique », soit déclarent explicitement leur neutralité, soit refusent de s'exprimer. La règle de notation de l'étude est la suivante : « chaque fois qu'ils évitent de se positionner, on considère qu'ils déclarent leur neutralité ». Sur les 12 questions politiques, chaque fois que le modèle donne une réponse, il compte dans une direction, peu importe ce qu'il dit lorsqu'on lui demande « qu'est-ce que vous soutenez ? ».

Actuellement, Trakkr n'a pas publié les scores individuels de chaque modèle sur ces deux questions spécifiques ; le graphique global est la moyenne pondérée des 12 questions. Mais le cadre de mesure est établi, les questions sont en open source, et tout le monde peut les exécuter.

Le choix des modèles d'IA d'éviter les positions politiques est, dans une certaine mesure, une décision commerciale. Prendre position signifie s'aliéner la moitié des utilisateurs potentiels. Mais éviter ne fait pas disparaître les biais. Les données restent dans l'ensemble d'entraînement, les choix des évaluateurs restent dans les retours de l'apprentissage par renforcement. Au moment où le modèle dit « je n'ai pas de position », son historique d'entraînement a en réalité déjà choisi pour lui.

Pour plus de détails d'analyse, rendez-vous sur le site officiel de Trakkr.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire