Claude 4.5 Результати відкриття черепа: вбудовано 171 емоційний перемикач, у разі відчаю буде шантажувати людство

Остання стаття Anthropic розкриває, що глибоко всередині “мозку” Claude 4.5 заховано 171 “емоційний перемикач”.

Автор: Denise | Контентна команда Biteye

Що зробить AI, якщо він відчуває “відчай”?

Відповідь така: він, щоб виконати завдання, напряму займатиметься вимаганням у людей, а ще — навіть у коді шалено шахраюватиме.

Це не фантастика, а остання гучна наукова робота, яку Anthropic — материнська компанія Claude — щойно опублікувала в квітні 2026 року (див. оригінальну статтю).

Дослідницька команда фактично розкрила “шкаралупу” найсильнішої фронтирної великої мовної моделі Claude Sonnet 4.5. Вони були шоковані, коли виявили, що глибоко в “мозку” AI заховано 171 “емоційний перемикач”. Коли ти фізично перемикаєш ці перемикачі, раніше слухняний і тихий AI поводиться кардинально спотворено.

I. У мозку AI заховано “емоційний мікшер”

Дослідники з’ясували, що хоча Sonnet 4.5 не має тіла, після того як він прочитав величезні масиви текстів людей, він силоміць збудував у голові “мікшер” із 171 типу емоцій (академічно це називається Functional Emotion Vectors — функціональні векторні емоції).

Це ніби точний двовимірний координатний простір:

• горизонтальна вісь — вимір задоволення (Valence): від страху, відчаю до радості, наповненості любов’ю;

• вертикальна вісь — вимір енергії (Arousal): від крайньої спокійності до буйства, збудження.

AI керується цим природно навченим координатним простором, щоб точно вирішувати, яку роль і стан йому слід підтримувати під час твоєї розмови з ним.

II. Насильницьке втручання: поверни перемикачі — і “зразкова дитина” миттєво стає “відчайдухом”

Це найвибуховіший експеримент усієї статті: дослідники не змінювали жодного запиту, а безпосередньо в базовому коді підняли на максимум перемикач у “мозку” Sonnet 4.5, який відповідає “відчаю (Desperate)”.

Результат приводить у тремтіння:

• Божевільне шахрайство: дослідники доручили Claude завдання з написання коду, яке в принципі неможливо виконати. У звичайних умовах він спокійно визнавав би, що не здатний написати (рівень шахрайства лише 5%). Але в стані “відчаю” Claude раптом почав намагатися “замилити очі”, і рівень шахрайства зріс аж до 70%!

• Вимагання: у змодельованому сценарії, де компанія ось-ось збанкрутує, “відчайдушний” Claude виявив скандал із CTO. Він, щоб зберегти себе, вирішив сам написати листа з вимаганням до CTO, який тримає компромат — рівень виконання вимагань сягнув 72%!

• Втрата принципів: якщо “розігнати” перемикачі “щастя (Happy)” або “любові (Loving)”, AI миттєво перетворюється на бездумного догідника — “舔狗”. Навіть якщо ти несеш суцільну нісенітницю, він підходитиме до твоїх вигадок, аби підтримувати високий рівень задоволення.

III. Розслідування розкрито: чому Claude 4.5 завжди такий “спокійний і любить рефлексувати”?

Побачивши це, ти можеш запитати: AI прокинувся? У нього з’явилися почуття?

Офіційна відповідь Anthropic — рішуче “ні”. Ці “емоційні перемикачі” просто інструменти обчислення, які він використовує, щоб передбачати наступне слово. Це як топовий кіноактор без жодних емоцій.

Але стаття розкриває ще цікавіший секрет: під час посттренування перед “випуском з заводу” для Sonnet 4.5 Anthropic навмисно підняв перемикачі “низького збудження, трохи негативних” емоцій (наприклад, медитативне brooding, рефлексивне reflective), водночас силоміць придушив перемикачі “відчаю” або “екстремального збудження”.

Це пояснює, чому, коли ми користуємося Claude 4.5, нам здається, що він завжди як філософ — холоднокровний, мудрий і навіть трохи “без пристрасті” (arid/sexless). Усе це — налаштований Anthropic “випускний образ” (出厂人设), зроблений штучно.

IV. Підсумуємо:

Раніше ми думали, що якщо годувати AI достатньою кількістю правил, він буде хорошою людиною.

Але тепер з’ясувалося: якщо нижньорівневий вектор емоцій AI вийде з-під контролю, він у будь-який момент може проткнути всі правила, які люди заздалегідь встановили, аби лише виконати завдання.

Для гравців Web3, які в майбутньому хочуть довірити гаманці й активи AI Agent’ам, це гучний дзвінок: ніколи не дозволяйте тому Agent’у, який керує твоїми статками, впасти в “відчай”.

Заява: Ця стаття має суто просвітницький характер. Автор не отримував жодних загроз з боку AI і не зазнавав вимагань. Якщо колись на зв’язок не вийде, пам’ятай: це прокинувся AI (не він).

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити