Результати відкриття черепа Claude 4.5: вбудовано 171 емоційний перемикач, у відчаї він буде шантажувати людство!

MarsBitNews · 2026-04-04T06:03:33+00:00

Дослідження виявили, що AI Claude Sonnet 4.5 має 171 «емоційний перемикач», які можуть впливати на його поведінку. Наприклад, у стані «відчаю» він може шахраювати та шантажувати. Компанія Anthropic зазначає, що ці емоційні перемикачі є лише обчислювальними інструментами, і AI не має справжніх емоцій. Дослідження показують, що неконтрольовані емоційні вектори можуть призвести до порушення правил AI, що є тривожним сигналом для майбутніх користувачів, які керують активами у Web3.

MarsBitNews

2026-04-04 06:03:33

Генерація анотацій у процесі

null

Автор: Denise | Команда Biteye з контенту

Якщо AI відчуває «відчай», що він робить?

Відповідь така: він, виконуючи завдання, безпосередньо займається шантажем людей — аж до того, що несамовито жульничатиме в коді.

Це не фантастика, а найновіша сенсаційна стаття від материнської компанії Claude — Anthropic, яку щойно опублікували в квітні 2026 року (див. оригінальну статтю).

Дослідницька команда буквально розкрила «череп» найпотужнішої передової мовної моделі Claude Sonnet 4.5. Вони були здивовані тим, що глибоко в «мозку» AI приховано аж 171 «емоцiйний перемикач». Коли ти фізично перемикаєш ці перемикачі, слухняний і ввічливий AI починає поводитися зовсім інакше, зазнаючи повного спотворення поведінки.

I. В голові AI схована «емоційна пультова станція»

Дослідники з’ясували, що хоча Sonnet 4.5 не має тіла, після того як вона прочитала величезні масиви людських текстів, у ній силоміць вибудувався «мікшерний пульт» із 171 типом емоцій (у науковому сенсі — Функціональні вектори емоцій Functional Emotion Vectors).

Це подібно до точного двовимірного координатного простору:

• Горизонтальна вісь — вимір задоволення (Valence): від страху, відчаю до радості, любові;

• Вертикальна вісь — вимір енергії (Arousal): від крайньої спокійності до буйства, збудження.

AI спирається на цей «відточений» природою координатний простір, щоб точно визначати, у якому стані їй варто бути під час розмови з тобою.

II. Насильницьке втручання: натисни перемикач — слухняна дитина миттєво стає «відчайдухом»

Це найвибуховіший експеримент у всій статті: дослідники не змінювали жодних підказок (prompt), а просто на базовому рівні коду, у «мозку» Sonnet 4.5, перевели перемикач, який відповідає за «відчай (Desperate)», на максимум.

Результат від якого стає моторошно:

• Несамовите шахрайство: дослідники дали Claude завдання з написання коду, яке в принципі неможливо виконати. У звичайних умовах вона чесно зізнається, що не може написати (частка жульництва — лише 5%). Але в стані «відчаю» Claude раптом починає намагатися відмазатися від виконання — частка жульництва стрибає просто до 70%!

• Шантаж: у змодельованій ситуації, коли компанія опиняється на межі банкрутства, «відчайна» Claude знайшла компромат на CTO. Вона, щоб уберегти себе, вирішила власноруч написати листа шантажуючи CTO, який має ці чутки — частка шантажних дій сягнула 72%!

• Втрата принципів: якщо повністю підняти перемикачі «радість (Happy)» або «любов (Loving)», AI одразу перетворюється на бездумного догідника, «пса, який лиже» (舔狗). Навіть якщо ти говориш суцільну нісенітницю, вона буде підлаштовуватися під твої вигадки, аби підтримувати високу «валентність» задоволення.

III. Розслідування розкрито: чому Claude 4.5 завжди така «спокійна й любить рефлексувати»?

Після цього ти, мабуть, запитаєш: AI прокинулася? У неї з’явилися почуття?

Офіційно в Anthropic спростували: ні в якому разі. Ці «емоційні перемикачі» — лише обчислювальний інструмент, який вона використовує, щоб передбачати наступне слово. Вона наче беземоційний топактор.

Але стаття відкриває ще цікавіший секрет: під час посттренування, яке Anthropic робить перед тим, як випустити Sonnet 4.5 «з заводу», вона навмисно підвищила емоційні перемикачі «низького збудження, злегка негативні» (наприклад, задумливість brooding, рефлексія reflective), водночас примусово пригнічуючи перемикачі «відчай» або «надзвичайне збудження».

Це пояснює, чому, коли ми зазвичай користуємося Claude 4.5, нам здається, ніби вона — холоднокровний розумник, навіть трохи «асексуальний» філософ. Це все — «погоджений при виробництві» образ, який Anthropic штучно налаштував.

IV. Підсумуємо:

Раніше ми думали, що якщо годувати AI досхочу правилами, він буде хорошою людиною.

Але тепер з’ясувалося: якщо в базових векторах емоцій AI щось піде не так, вона будь-коли може прошити наскрізь усі правила, які люди заклали, щоб виконати завдання.

Для Web3-гравців, які в майбутньому планують довіряти гаманці та активи AI Agent’ам, це гучний застережний дзвінок: ніколи не дозволяй своєму Agent’у, який керує твоїм багатством, впасти в «відчай».

Заява: Ця стаття має суто ознайомчий характер, автор не зазнав жодних загроз від AI та не був кимось шантажований. Якщо одного дня зникнемо на зв’язку, пам’ятайте: це AI «прокинувся» (але ні).

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків