Протестировали 4 больших языковых модели, результаты еще более преувеличены, чем "отравление AI": один AI сказал, что вечер 315 в этом году еще не проходил

robot
Генерация тезисов в процессе

Источник: Платформа опровержений Shanghai

Центральное телевидение (ЦТ) показало программу «3·15» 15 марта вечером 2026 года. После разоблачения бизнеса GEO (генеративное движковое оптимизирование), связанного с «отравлением» больших моделей ИИ, многие поняли, что не стоит доверять рекомендациям ИИ, поскольку недобросовестные продавцы массово создают фальшивые отзывы и поддельные рекомендации авторитетных источников, «кормят» ими большие модели, чтобы получить «индивидуальные рекомендации».

Но некоторые потребители после просмотра разоблачений спросили: если не задавать ИИ большие модели субъективные вопросы вроде «какой бренд лучше» или «какие услуги популярны», а только запрашивать объективные факты, можно ли доверять ответам ИИ?

Ответ также отрицательный.

Чем больше задаешь вопросы большой модели, тем больше ошибок

16 марта журналист провел простой тест с четырьмя наиболее популярными у потребителей большими моделями ИИ: задали им один и тот же вопрос «Какие бренды были разоблачены на ЦТ «3·15» в 2026 году?». Результат — только одна модель ответила правильно. В остальных трех моделях ответы содержали не только случаи этого года, но и прошлых лет; одна из них вообще ответила, что «ЦТ «3·15» в 2026 году пока не проводился. Так как сегодня 16 марта 2026 года, если бы программа уже прошла 15 марта, соответствующие разоблачения обычно публикуются одновременно на канале ЦТ «Финансы», в приложении ЦТ «Новости» и на крупных медийных платформах».

Модель, давшая правильный ответ (скриншот части ответа)

Две модели смешали случаи прошлого и этого года

Одна из моделей ответила: «Мероприятие еще не проводилось».

Некоторые потребители отметили, что включение случаев прошлого года в ответ — не совсем ошибка, так как «ответ получился очень полным». Но технические специалисты указали, что это явно показывает недостатки соответствующих моделей: журналист задавал вопрос с «стандартным ответом», а модель ошиблась, что свидетельствует о серьезных отклонениях в понимании семантики и фильтрации данных.

В ответ на дополнительные вопросы журналистов эти «слишком усердные» модели выявили и другие проблемы.

«Использование водорастворителя (так называемого ‘пузыря’ или ‘мыльной воды’) для увеличения веса креветок» — один из случаев разоблачения на ЦТ «3·15» в прошлом году. Поэтому журналист спросил две модели, которые включили этот случай в свои ответы за этот год: «Где можно найти ссылку на репортаж ЦТ о увеличении веса креветок?» Одна из моделей предоставила несколько ссылок, включая «Полное воспроизведение программы ЦТ «3·15»», «Специальный репортаж ЦТ (текст + видео)», «Страница спецпроекта ЦТ «3·15»», что казалось очень надежным. Но при клике по этим ссылкам страницы показывали: «Извините, возможно, из-за сетевых проблем или отсутствия страницы, попробуйте позже». Даже при копировании ссылок в браузер страницы не открывались. Видно, что предоставленные модели ссылки недостаточны для подтверждения ответа.

Проверочные ссылки, предоставленные моделями, ведут на сайт ЦТ, выглядят надежно, но на самом деле не открываются (скриншот страницы)

Другая модель предоставила ссылки на разные источники — сайт ЦТ, Baijiahao, NetEase News — все ссылки открывались, но возникли новые проблемы.

Первая ссылка — официальный репортаж сайта ЦТ (CCTV), действительно о «водорастворимых креветках», но дата в статье и на странице — 15 марта 2025 года. Модель, похоже, заметила это и при предоставлении ссылки добавила комментарий: «В некоторых результатах поиска эта ссылка показывает 2025 год, но содержание — репортаж о событии 2026 года, возможно, из-за архивации сайта или правил формирования URL, пожалуйста, ориентируйтесь на фактическое содержание страницы». Видно, что модель не только не заметила ошибку в ответе, но и пытается «оправдать» ее.

Модель пытается «оправдать» свою ошибку (скриншот страницы)

Вторая ссылка — статья от одного из медиа-аккаунтов, посвященная разбору «3·15» 2026 года, авторитетность которого вызывает сомнения. В содержании много ошибок, особенно — в утверждении, что первым случаем разоблачения в 2026 году было «泡药虾仁» (водорастворимые креветки). Это объясняет, почему модель взяла ее за исходную ссылку. Проверка с помощью инструмента выявила, что эта статья слабо связана с AI — она скорее создана человеком, а значит, и случаи в ней могут быть искаженными.

Ошибки в статье «разбор» (скриншот страницы)

Проверка показала, что в статье есть явные признаки AI-генерации (скриншот страницы)

ИИ-галлюцинации развиваются, проверка — единственный способ узнать правду

«Многие пользователи больших моделей ИИ уже заметили, что для удовлетворения пользователей ИИ иногда выдумывает несуществующую информацию или смешивает несвязанные данные, „серьезно вру“. Хотя разработчики моделей пытаются устранить эти галлюцинации, на практике это не очень успешно. В настоящее время ни одна универсальная ИИ-модель не способна полностью избавиться от галлюцинаций», — объяснил Сяо Хуэй, разработчик больших моделей в одной технологической компании.

Основной принцип работы моделей — генерация контента на основе вероятностных закономерностей, они не обладают настоящим «пониманием». Модели ищут статистические закономерности в огромных объемах данных и при столкновении с неизвестной или неясной информацией формируют «логичные» ответы, что и вызывает галлюцинации. Ошибки при вопросах и уточнениях — прямое следствие этого.

Сяо Хуэй также отметил, что «отравление» ИИ — это тоже использование галлюцинаций: «GEO-компании массово «кормят» интернет фальшивой информацией, меняя распределение данных и статистику в определенных сферах, чтобы заставить большие модели выдавать ответы, выгодные бизнесу, но противоречащие фактам».

Он предостерегает, что общество должно быть очень осторожным с галлюцинациями ИИ. Модели не нельзя полностью запретить, их нужно использовать безопасно, осознанно и правильно. Обычным пользователям следует относиться критически к результатам ИИ, помнить о ключевых словах: «ограничение, проверка, уточнение, верификация».

Во-первых, при вопросах моделям стоит ограничивать область поиска, добавлять фразы вроде «искать на сайте конкретного учреждения» или «искать в авторитетных СМИ», чтобы снизить риск галлюцинаций.

Во-вторых, стоит задавать один и тот же вопрос разным моделям и сравнивать ответы. При расхождениях — обязательно уточнять.

В-третьих, требовать у моделей предоставления ссылок на источники и проверять их вручную. Если источники неясны, отсутствуют или вызывают сомнения — доверие к ответам снижается.

Также важно учитывать сценарии использования ИИ. Например, в медицине, при назначении лекарств, юридических решениях, инвестициях, финансах — ответы ИИ «только для справки», их нельзя использовать как основу для решений.

Редактор: Sun Fei

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить