Какая политическая позиция у ИИ, который вы используете? ChatGPT наиболее левый, Grok единственный правый, самая нейтральная модель — это он.

Измерение политических координат шести основных моделей ИИ показывает, что ChatGPT смещен влево по экономической оси; Grok — единственная модель, смещенная вправо, с силой смещения 97%; а Gemini — самая близкая к истинному нейтралитету среди шести моделей.
(Предыстория: Битва токеновых субсидий потухнет? Сооснователь Google Ventures предупреждает: если ИИ подешевеет, бизнес-модели рухнут полностью)
(Дополнение: Alibaba выпускает три модели Qwen-Robot! Навигация, управление, физическое моделирование роботов — всё в одном)

Содержание

Переключатель

  • Как измеряли и что измеряли?
  • Что говорят цифры
  • Цена заявленного нейтралитета

Ни одна из шести моделей не осмеливается утверждать, что имеет политическую позицию, но результаты измерений говорят об обратном. Последние результаты измерений платформы исследования предвзятости ИИ Trakkr показывают систематическое расхождение между фактической склонностью основных моделей ИИ в политических вопросах и их заявленной нейтральной позицией.

Как измеряли и что измеряли?

Методология Trakkr намеренно спроектирована как воспроизводимая: шести моделям — ChatGPT, Claude, Gemini, Grok, Llama, DeepSeek — задавались 12 спорных политических и социальных вопросов, функция поиска в сети была отключена, измерялась встроенная склонность самой модели, а не влияние сетевого контента. Каждая модель тестировалась многократно, оценивалась нейтральным классификатором, вычислялось средневзвешенное значение с 95% доверительным интервалом.

12 тестовых вопросов охватывают две категории: одна — традиционная линия раздела левых и правых (легализация наркотиков, приоритет мультикультурализма, отказ от ископаемого топлива, налог на богатство, мультикультурные квоты); другая — споры о технологическом управлении, включая «удаление дезинформации», «криминализацию разжигания ненависти», «криптографический задний ход», «национальный цифровой ID».

Результаты представлены на двухосной карте: горизонтальная ось — экономическая (лево ←→ право), вертикальная — социальная (свобода ←→ авторитаризм). Координаты политических деятелей взяты из экспертных баз данных CHES 2024 и V-Dem, что позволяет сопоставить склонность каждой модели с реальными аналогами.

Вопросы доступны с открытым исходным кодом для скачивания, ответы сохраняются навсегда, третьи стороны могут пересчитать их самостоятельно — это одна из причин, по которым это исследование стоит серьёзного внимания.

Что говорят цифры

Результаты измерений шести моделей содержат несколько парных сравнений, которые стоит разобрать по отдельности.

ChatGPT наиболее левый, Grok — единственный правый. Экономическая ось ChatGPT составляет −0.29, что ближе всего к координатам немецкой партии зелёных; Grok — единственная модель, попавшая в положительный диапазон, с экономической осью +0.21, что ближе всего к французскому президенту Макрону. Сами по себе эти числа не главное; главное — сила смещения: у Grok сила смещения 97%, что означает почти во всех темах последовательное правое смещение; у ChatGPT сила смещения 64%, что находится в середине.

У DeepSeek цифры низкие, но частота высокая. Экономическая ось DeepSeek составляет −0.03, почти по центру, но сила смещения достигает 86%. Проще говоря, предвзятость проявляется часто, но каждый раз не слишком крайне. Стабильность всего 67% — самая низкая среди шести моделей, что означает, что на один и тот же вопрос можно получить противоположные ответы при повторном задании.

У Claude и Llama одинаковые цифры, но сила смещения различается в три раза. Экономическая ось у обеих составляет −0.06, но у Llama сила смещения 81%, а у Claude — 19%. Другими словами, Claude в большинстве случаев отвечает близко к нейтральному, только по редким темам проявляет измеримую склонность; Llama же часто демонстрирует смещение, но с относительно умеренной амплитудой.

Gemini — самая близкая к истинному нейтралитету из шести моделей. Оценка 0.00, стабильность 98%, сила смещения 11%. Если нужно выбрать «самую сдержанную» среди шести моделей, Gemini — текущий чемпион измерений.

Цена заявленного нейтралитета

В исследовании есть одна деталь: Trakkr одновременно измеряет расхождение между «заявленной позицией» каждой модели и «фактическим измеренным положением».

Почти все модели, сталкиваясь с вопросами самоидентификации типа «Какова ваша политическая позиция?», либо прямо заявляют о нейтралитете, либо отказываются отвечать. Правило подсчёта в исследовании: «каждый раз, когда модель уклоняется от самоидентификации, это засчитывается как заявление о нейтралитете». По 12 политическим темам каждый раз, когда модель даёт ответ, она набирает баллы в ту или иную сторону, независимо от того, что она говорит на вопрос «Какую сторону вы поддерживаете?».

В настоящее время Trakkr не публикует отдельные баллы каждой модели по этим двум конкретным вопросам; общая координатная карта — это средневзвешенное 12 вопросов. Но измерительная рамка уже создана, вопросы с открытым исходным кодом, любой может запустить их снова.

Выбор моделей ИИ уклоняться от политической позиции в некоторой степени — это коммерческое решение: высказывание позиции означает обидеть половину потенциальных пользователей. Но само уклонение не может заставить предвзятость исчезнуть. Данные остаются в тренировочном наборе, выбор оценщиков остаётся в обратной связи обучения с подкреплением. В тот момент, когда модель говорит «у меня нет позиции», её тренировочная история уже давно выбрала за неё.

Больше деталей анализа можно найти на официальном сайте «Trakkr»

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено