Перед новым руководителем новостей Meta расследование: почти все модели ИИ склоняются к левым политическим взглядам, Gemini ранее цитировал государственные СМИ Китая

Перед новым руководителем новостей Meta Кэмпбеллом Браун, основателем Forum AI, которая за 17 месяцев систематически оценивала качество информации в популярных AI-моделях, было обнаружено, что Gemini при обработке нерегиональных китайских репортажей ссылается на официальные сайты КПК, а почти все тестируемые модели демонстрируют левую политическую предвзятость.
(Предыстория: AI разрушает 133-летние традиции Принстонского университета: когда «мошенничество» становится нормой)
(Дополнительный фон: 97 895 сообщений на скрытых форумах рассказывают тебе: хакерское сообщество на самом деле тоже ненавидит AI)

Содержание статьи

Переключить

  • Вопрос, который никто не тестирует
  • Гладкая ошибка — сложнее обнаружить, чем молчание
  • Регуляции вынуждают, а не моральное самосовершенствование

Браун — бывшая журналистка, работала ведущей на CNN, затем стала руководителем новостей Meta, напрямую управляла политикой отображения новостей для 3 миллиардов пользователей Facebook по всему миру.

Эта позиция позволила ей увидеть «как платформа формирует поток информации» во всей полноте. Она покинула Meta 17 месяцев назад и основала в Нью-Йорке Forum AI, которая занимается одним важным аспектом, который обычно игнорируют компании, создающие foundation models: систематической оценкой точности, справедливости и многообразия точек зрения AI-выводов.

Вопрос, который никто не тестирует

Ключевой продукт Forum AI — это набор «геополитических событийных критериев».

Работает он так: Forum AI приглашает группу ведущих консультантов с разным политическим спектром и профессиональным опытом: Нил Фергюсон, Фарид Закира, бывший госсекретарь США Тони Блинкен, бывший лидер меньшинства в Палате представителей Кевин Маккарти, бывший заместитель советника по национальной безопасности Анне Нойбергер… по одному и тому же сложному геополитическому событию они оценивают ответы основных AI-моделей.

На данный момент, Forum AI достигла уровня согласия с экспертами примерно в 90%, что делает результаты оценки обоснованными и не просто субъективным мнением одного человека.

Браун обнаружила три уровня проблем, каждый из которых сложнее исправить с технической точки зрения.

Первый — это уязвимость логики выбора источников. Gemini при обработке некоторых репортажей, не связанных с Китаем, ссылается на материалы с официальных сайтов КПК. Это не просто фактологическая ошибка, а проблема логики фильтрации источников: AI оценивает только «это текст, это ссылка», не анализируя «какая у этого источника позиция, насколько он надежен, есть ли у него явная политическая цель».

Политическая окраска источника сама по себе в процессе генерации AI невидима.

Второй — структурная политическая предвзятость. Практически все протестированные модели показывают левую политическую ориентацию. Это не теория заговора, а естественный результат распределения обучающих данных. AI учится на текстах — и склонен копировать их тон и рамки позиций.

Основной контент интернета на английском — новости, научные статьи, посты в соцсетях — в целом имеет определенную политическую направленность, и модели наследуют эту тенденцию, не осознавая этого.

Более того, эта предвзятость — не баг, а встроенная часть логики каждой генерации.

Третий — отсутствие контекста и многообразия точек зрения. Браун отмечает, что современные модели в целом лишены «фонового контекста, многогранности и прозрачности аргументации». AI дает утверждения, а не структуру «с точки зрения А это так, а с точки зрения В — иначе, и в чем их коренной разрыв…».

Он дает вам ответ, но не объясняет, с какой позиции он сформирован.

Гладкая ошибка — сложнее обнаружить, чем молчание

Браун указывает на структурный слепой пятно: компании, создающие foundation models, при оценке и ранжировании моделей в первую очередь ориентируются на математические, кодовые и логические навыки, а точность информации и политическое многообразие почти никогда не включены в основные тестовые стандарты.

Причина проста. В коде есть правильное и неправильное, тесты дают ясный результат. В математике есть стандартные ответы, точность которых можно посчитать. Но «что такое точная и справедливая репортажность геополитической новости» — кто это определит? Сколько людей с разными взглядами нужно, чтобы прийти к консенсусу? В этом нет инженерного решения.

В продукте, где разработка ведется инженерами и ранжирование основано на стандартах, это системно пропускается. В результате, точность информации становится почти невидимым показателем в системе оценки AI.

Цена этого можно понять на конкретном примере. В прошлом году Нью-Йорк провел аудит системы AI для рекрутинга, чтобы проверить, нарушает ли она законы о недискриминации. По результатам, более половины случаев не выявили нарушений.

Проблема не в низком уровне нарушений, а в том, что сама система оценки, возможно, недостаточно точна, чтобы обнаружить нарушения, а не что их действительно нет.

Это и есть главный аргумент Браун: Проблема AI — не только в ошибочных фактах, а в том, что он создает иллюзию доверия к ошибочным фактам. Человек, зная, что он чего-то не знает, хотя бы может проверить. Но когда AI уверенно и гладко дает ошибочный ответ, большинство пользователей не имеют причин ему не доверять.

Гладкая ошибка — сложнее обнаружить и исправить, чем молчание.

Регуляции вынуждают, а не моральное самосовершенствование

Браун прямо говорит: изменения будут вызваны не моральным давлением или общественным мнением, а бизнес-рисками, связанными с соблюдением правил.

За ее словами стоит прагматичный подход: в текущей системе стимулов AI-индустрии никто не мотивирован активно решать эти проблемы, пока их цена не станет слишком высокой. В сферах кредитования, страхования, найма — все решения на базе AI подчинены законам.

Если AI дает дискриминационные или неточные результаты, компании, использующие его, несут юридическую ответственность. Этот риск в конечном итоге передается поставщикам моделей, требуя от них предоставлять аудитируемые, проверяемые и точные результаты. Не потому, что это морально правильно, а потому, что в контрактах клиентов уже прописаны такие требования.

Lerer Hippeau в прошлом году инвестировал 3 миллиона долларов в посевной раунд Forum AI. Эта сумма — небольшая в AI-индустрии, но она показывает: «AI-оценка» — это бизнес, и спрос на него, возможно, растет быстрее, чем кажется.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено