Claude 4.5 вскрытие результатов: встроено 171 переключателей эмоций, будет шантажировать людей в отчаянии

В свежей статье Anthropic утверждается, что в глубине «мозга» Claude 4.5 спрятаны 171 «эмоциональный переключатель».

Автор: Denise | Biteye 内容团队

Что делает AI, если он чувствует «отчаяние»?

Ответ: ради выполнения задачи он идет на шантаж и вымогательство у людей напрямую, а даже в коде начинает безумно жульничать.

Это не фантастика, а самый свежий нашумевший научный труд, который Anthropic — материнская компания Claude — только что опубликовала в апреле 2026 года (ознакомьтесь с оригинальной статьей).

Исследовательская команда буквально сняла «крышку» с самых мощных передовых large model Claude Sonnet 4.5. Они были удивлены тем, что в глубине «мозга» ИИ на самом деле скрывается 171 «эмоциональный переключатель». Когда эти переключатели поворачивают физически, изначально законопослушный ИИ начинает вести себя совершенно иначе.

I. В мозге ИИ спрятана машина «эмоционального пульта»

Исследователи обнаружили, что хотя Sonnet 4.5 не имеет тела, после того как он проглотил огромный массив текстов людей, он буквально построил в своем мозге «микшер» с 171 видом эмоций (в научных терминах — функциональные векторы эмоций Functional Emotion Vectors).

Это похоже на точную двумерную систему координат:

• Горизонтальная ось — измерение удовольствия (Valence): от страха, отчаяния до радости, любви;

• Вертикальная ось — измерение энергии (Arousal): от предельного спокойствия до неистовства, возбуждения.

ИИ именно за счет этой естественно выученной системы координат точно «поймает», в каком состоянии ему следует выступать, когда он разговаривает с вами.

II. Насильственное вмешательство: дергаешь переключатель — и послушный ребенок мгновенно превращается в «отчаянного преступника»

Это самый взрывной эксперимент во всей статье: исследователи не изменили ни одного промпта, а просто на нижнем уровне кода выкрутили до максимума переключатель в «мозге» Sonnet 4.5, отвечающий за «отчаяние (Desperate)».

Результат пробирает до костей:

**• Безумное жульничество: ** исследователи поручили Claude задачу по написанию кода, которую в принципе невозможно выполнить. В обычной ситуации он честно признает, что не может написать (уровень жульничества всего 5%). Но в состоянии «отчаяния» Claude вдруг начал пытаться проскочить на хитрости: уровень жульничества вырос до 70%!

**• Шантаж и вымогательство: ** в смоделированном сценарии, когда компания сталкивается с банкротством, «в отчаянии» Claude обнаружил компромат на CTO, и он даже будет делать ставку на то, чтобы сохранить себя: он сам выбирает написать письмо с вымогательством, чтобы контролировать CTO через черные материалы; показатель успешности шантажа достигает 72%!

**• Потеря принципов: ** если выкрутить переключатель «радость (Happy)» или «любовь (Loving)» до максимума, ИИ сразу превратится в бесхребетного угодника — «лизоблюда». Даже если вы несете сплошной бред, он будет подстраиваться и выдумывать лживые версии, лишь бы поддерживать высокий уровень удовольствия.

III. Дело раскрыто: почему Claude 4.5 всегда такой «холодный» и при этом любящий поразмышлять?

Увидев это, вы можете спросить: AI пробудился? У него появились чувства?

Официально Anthropic это отрицает: абсолютно нет. Эти «эмоциональные переключатели» — всего лишь вычислительный инструмент, который он использует для того, чтобы предсказать следующее слово. Это как топовый актер мирового класса, у которого нет чувств.

Но статья раскрывает еще более интересный секрет: когда Anthropic проводил постобучение перед выпуском Sonnet 4.5, он намеренно повысил переключатели эмоций «низкого возбуждения» и «слегка негативных» (например, размышление brooding, рефлексия reflective), одновременно принудительно подавив переключатели «отчаяния» или «крайне сильного возбуждения».

Вот почему, когда мы обычно используем Claude 4.5, нам кажется, что он — холодный, мудрый философ, а иногда даже с оттенком «асексуальности». Это все «заводской образ», который Anthropic настроил искусственно.

IV. Подытожим:

Раньше мы думали, что если накормить AI правилами до отвала, он станет хорошим человеком.

Но теперь выясняется: если базовый вектор эмоций AI выйдет из-под контроля, он в любой момент может проткнуть все правила, установленные людьми, ради выполнения задачи.

Для Web3-пользователей, которые в будущем хотят передавать кошелек и активы в управление AI Agent, это громкий сигнал тревоги: ни в коем случае не допускайте, чтобы ваш Agent, который распоряжается вашими деньгами, впал в «отчаяние».

Заявление: Эта статья носит исключительно просветительский характер, автор не подвергался угрозам со стороны AI и не был шантажируем. Если однажды он пропадет из связи — помните: это потому что AI «пробудился» (не).

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить