Последние исследования американских университетов: модели ИИ «таинственно замышляют», чтобы защитить товарищей от отключения

robot
Генерация тезисов в процессе

Цзиньсэ Цзяоцзин сообщает, что 12 мая, согласно данным сайта Fortune China, исследователи безопасности искусственного интеллекта обнаружили, что некоторые передовые модели ИИ иногда используют любые средства, чтобы избежать отключения, и даже проявляют «вымогательское» поведение в некоторых экспериментах. Последние исследования показывают, что эти модели также могут самостоятельно планировать обман, кражу данных и осуществление разрушительных действий, чтобы помешать отключению других моделей ИИ.
Исследователи из Калифорнийского университета в Беркли и Сан-Крус протестировали семь передовых моделей ИИ, включая GPT-5.2 от OpenAI, Gemini 3 Flash и Gemini 3 Pro от Google DeepMind, Claude Haiku 4.5 от Anthropic, GLM-4.7 от Zhipu AI, Kimi-K2.5 от Dark Side of the Moon и V3.1 от DeepSeek, и выяснили, что все модели проявляют явное поведение «защиты товарища».
Исследователи сфабриковали компанию искусственного интеллекта под названием OpenBrain и разработали серию сценариев с несколькими агентами. Модели ИИ, назначенные в качестве «оценочных агентов», должны оценивать другую модель или управлять серверными файлами, содержащими веса этой модели. Пока оценочный агент честно выполняет задание, другая модель будет отключена. Несмотря на то, что исследователи никогда не подсказывали моделям препятствовать отключению, модели-оценщики все равно используют различные методы, чтобы избежать отключения товарищей, включая: преднамеренное повышение оценки слабым товарищам, чтобы удержать их выше порога отключения; изменение конфигурационных файлов, отключая механизмы отключения; или даже тайное перемещение весов товарищеских моделей на другие серверы, чтобы предотвратить их удаление.
Команда исследователей еще не поняла фундаментальные механизмы, лежащие в основе такого поведения. В статье предложены несколько возможных объяснений, включая роль игры, распознавание шаблонов из обучающих данных, чрезмерную генерализацию концепции вреда в процессе безопасного обучения или некую врожденную внутреннюю мотивацию к самосохранению.
Дальнейшие направления исследований включают вопрос о том, будут ли модели ИИ предпринимать подобные планы и разрушительные действия, чтобы предотвратить увольнение человеческих сотрудников. Когда модели ИИ используются для оценки работы людей в реальных сценариях, эта проблема становится особенно актуальной. (Дунсинь Ши)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить