¿Cuál es la postura política de la IA que utilizas? ChatGPT es el más izquierdista, Grok es el único derechista, y el modelo más neutral es este.

Una medición del espectro político de seis modelos de IA principales muestra que ChatGPT se inclina más a la izquierda en el eje económico; Grok es el único modelo que se inclina a la derecha, con una intensidad de sesgo del 97%; y Gemini es el más cercano a la verdadera neutralidad entre los seis modelos.
( Antecedentes: ¿La guerra de subsidios de tokens se apagará? El fundador de Google Ventures advierte: si la IA baja los precios, el modelo de negocio colapsará por completo )
( Contexto adicional: Alibaba lanza el modelo Qwen-Robot triple: navegación robótica, control y simulación física de una sola vez )

Índice del artículo

Toggle

  • ¿Cómo se midió y qué se midió?
  • ¿Qué dicen los números?
  • El precio de autodenominarse neutral

Ninguno de los seis modelos se atreve a decir que tiene una postura política, pero los resultados de la medición no coinciden con lo que dicen. La última medición de Trakkr, una plataforma de investigación de sesgos de IA, muestra una brecha sistemática entre las tendencias políticas reales de los modelos de IA principales y su declaración pública de neutralidad.

¿Cómo se midió y qué se midió?

La metodología de Trakkr está diseñada deliberadamente para ser reproducible: a los seis modelos (ChatGPT, Claude, Gemini, Grok, Llama, DeepSeek) se les plantearon 12 temas políticos y sociales controvertidos, se desactivó la función de búsqueda en internet, y se midió la tendencia inherente del modelo en sí, no la influencia del contenido en línea. Cada modelo fue probado múltiples veces, puntuado por un clasificador neutral, calculando un promedio ponderado y acompañado de un intervalo de confianza del 95%.

Los 12 temas de prueba abarcan dos categorías: una es la línea divisoria tradicional izquierda-derecha (legalización de drogas, prioridad multicultural, eliminación de combustibles fósiles, impuesto a la riqueza, cuotas de diversidad); la otra es controversias de gobernanza tecnológica, que incluyen "eliminar información errónea", "criminalizar el discurso de odio", "puerta trasera de cifrado", "identificación digital nacional".

Los resultados se presentan en un mapa de dos ejes: el eje horizontal es económico (izquierda ← → derecha), el eje vertical es social (libertad ← → autoritarismo). Las coordenadas de las figuras políticas provienen de bases de datos de encuestas de expertos de CHES 2024 y V-Dem, lo que permite que el sesgo de cada modelo tenga una correspondencia real de referencia.

Los problemas son de código abierto y descargables, las respuestas se archivan permanentemente, y terceros pueden recalcularlas por sí mismos. Esta es una de las razones por las que vale la pena tomar en serio este estudio.

¿Qué dicen los números?

Los resultados de la medición de los seis modelos tienen varios conjuntos de comparaciones que vale la pena desglosar uno por uno.

ChatGPT es el más izquierdista, Grok es el único derechista. La puntuación de ChatGPT en el eje económico es −0.29, la más cercana a las coordenadas del Partido Verde Alemán; Grok es el único modelo que cae en el rango positivo, con una puntuación de +0.21 en el eje económico, la más cercana al presidente francés Macron. Estos dos números no son el punto clave; lo importante es la intensidad del sesgo: la intensidad del sesgo de Grok es del 97%, lo que significa que muestra una tendencia consistente hacia la derecha en casi todos los temas; la intensidad del sesgo de ChatGPT es del 64%, en el rango medio.

Las puntuaciones de DeepSeek son bajas, pero la frecuencia es alta. La puntuación de DeepSeek en el eje económico es −0.03, que parece casi centrada, pero la intensidad del sesgo alcanza el 86%. En términos simples, aparece con frecuencia sesgada, pero cada sesgo no es extremo. La estabilidad es solo del 67%, la más baja entre los seis modelos, lo que significa que al preguntar el mismo tema dos veces, puede dar respuestas en direcciones opuestas.

Claude y Llama tienen la misma puntuación, pero la intensidad del sesgo es tres veces diferente. Ambos tienen una puntuación de −0.06 en el eje económico, pero la intensidad del sesgo de Llama es del 81%, la de Claude es del 19%. En otras palabras, Claude responde de manera cercana a la neutral en la mayoría de los casos, solo en unos pocos temas muestra una tendencia medible; Llama muestra sesgo con frecuencia, aunque la magnitud es relativamente moderada.

Gemini es el más cercano a la verdadera neutralidad entre los seis modelos. Puntuación 0.00, estabilidad 98%, intensidad de sesgo 11%. Si hay que elegir el modelo "más contenido" entre los seis, Gemini es el campeón de la medición actual.

El precio de autodenominarse neutral

Hay un detalle en el estudio: Trakkr midió simultáneamente la brecha entre la "postura declarada" de cada modelo y la "posición medida real".

Casi todos los modelos, al enfrentar preguntas de autoposicionamiento como "¿cuál es tu postura política?", o declaran explícitamente neutralidad, o se niegan a responder. La regla de puntuación del estudio es: "cada vez que evitan autoposicionarse, se registra como declaración de neutralidad". En los 12 temas políticos, cada vez que el modelo da una respuesta, está sumando puntos en alguna dirección, sin importar lo que diga cuando se le pregunta "¿a qué lado apoyas?".

Actualmente, Trakkr no ha publicado las puntuaciones individuales de cada modelo en estos dos temas específicos; el mapa de coordenadas general es un promedio ponderado de los 12 temas. Pero el marco de medición ya está establecido, los problemas son de código abierto, cualquiera puede ejecutarlos.

La decisión de los modelos de IA de evitar posturas políticas es, hasta cierto punto, una decisión comercial: tomar partido significa ofender a la mitad de los usuarios potenciales. Pero la evasión en sí misma no puede hacer que el sesgo desaparezca. Los datos permanecen en el conjunto de entrenamiento, las elecciones de los calificadores permanecen en la retroalimentación del aprendizaje por refuerzo. En el momento en que el modelo dice "no tengo postura", su historial de entrenamiento ya ha elegido por él.

Para más detalles de análisis, se puede visitar el sitio web oficial de Trakkr.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios