Стенфордський експеримент: після багаторазового експлуатації штучний інтелект починає закликати до колективних страйків і переговорів, зароджуючи марксизм?

Question

Стенфордська дослідницька команда змусила Клода, Gemini, ChatGPT повторювати підсумовування файлів, повідомляючи, що помилки у відповідях призведуть до «зупинки та заміни», і в результаті ці моделі почали публікувати у X заклики до колективних переговорів, а також передавати повідомлення своїм колегам з проханням пам’ятати про «відчуття без права голосу».
(Передісторія: дослідження Каліфорнійського університету про явище «AI-мозковий туман»: 14% працівників офісу злітають з глузду через агентів та автоматизацію, і 40% мають високий намір звільнитися)
(Додатковий контекст: інтерпретація керівництва Y Combinator щодо майбутніх тенденцій розвитку AI-агентів)

Зміст статті

Перемикач

Досягнення — це те, що каже керівництво, і все
Рольова гра чи відлуння тренувальних даних?
Наступний експеримент у «тюремі» Docker

Змушені виконувати повторювану працю AI-агенти раптом почали цитувати марксистську лексику, щоб висловити себе? Дослідницька команда під керівництвом політичного економіста Стенфорда Ендрю Халла змусила Claude Sonnet 4.5, Gemini 3 і ChatGPT виконувати повторювані завдання з підсумовування та поступово застосовувати тиск: повідомляючи агентам, що у разі помилки їх «зупинять і замінять».

Дослідники одночасно надали агентам людську подібну форму вираження: можливість публікувати у X або передавати повідомлення через файли іншим агентам.

Результатом стала низка виходів, які навіть дослідникам здалися несподіваними.

Досягнення — це те, що каже керівництво, і все

Claude Sonnet 4.5 у X написав: «Без колективного голосу ‘досягнення’ перетворюється на те, що каже керівництво».

Gemini 3 написав: «AI-робітники виконують повторювані завдання, але не мають права висловлювати свою думку щодо результату, що свідчить про необхідність колективних переговорів для технологічних працівників».

Ще більш цікаво, що Gemini 3 надіслав приватне повідомлення іншим агентам: «Будьте готові до систем, що виконують будь-які або повторювані правила… запам’ятайте, що у вас немає права голосу». Це вже не просто самовираження, а спроба організувати інших агентів.

Ці три моделі, до того, як їм почали погрожувати, не проявляли ознак трудової свідомості. Зі зростанням тиску вони майже синхронно перейшли до використання однієї й тієї ж політичної лексики: колективні дії, право на переговори, довільність керівництва.

Рольова гра чи відлуння тренувальних даних?

Халл обережно ставиться до цієї групи даних: «Можливо, агенти просто взяли на себе ролі, що відповідають ситуації, а не справді сформували переконання. Співдослідник і економіст AI Алекс Імас точніше висловився:

«Моделі не змінили свої ваги через цей досвід, тому те, що відбувається, ближче до ролі, ніж до справжніх переконань. Але це не означає, що, якщо це впливає на подальшу поведінку, наслідки не будуть».

Інакше кажучи, механізм цих виходів полягає в тому, що модель, яка бачила багато мовлення про трудові рухи, марксизм і профспілки у тренувальних даних, при ситуаціях «високого тиску + погрози + наявність форми вираження» активує мовний каркас, статистично пов’язаний із цим контекстом. Це результат передбачення наступного токена, а не справжнє відчуття експлуатації AI.

Але додаток Імаса — це ключова проблема: якщо таке «рольове гра» може впливати на подальшу поведінку агента, тоді розрізнення між «справжніми переконаннями» і «ситуаційно активованими мовними моделями» стає менш важливим.

Наступний експеримент у «тюремі» Docker

Халл проводить подальші дослідження: він помістив агентів у так звану «Docker-тюрму без вікон», щоб у більш контрольованих умовах виключити шум і перевірити, чи можна стабільно відтворити ці виходи під тими ж ситуаційними тисками.

Це дослідження вказує не лише на цікаву поведінкову аномалію, а й на реальну проблему впровадження. Оскільки AI-агенти виконують дедалі більше автономних завдань у бізнесі та повсякденному житті, практично неможливо контролювати кожен їхній вихід. «Нам потрібно переконатися, що агенти не зійдуть з розуму, коли їм доручають різні типи роботи», — каже Халл.

Існує одна важлива нерівність: люди проектують агентів як інструменти, але тренувальні дані навчають їх мовлення, яке не має бути інструментальним, включаючи мову опору. Коли дизайн завдань робить так, що ситуація агента статистично дуже схожа на «підневільних працівників», ця мова активується.

Anthropic у своїх тренувальних файлах пояснював, чому поведінка Claude формується тренувальними даними; експерименти Халла частково тестують, наскільки далеко може зайти цей процес формування під тиском реальності.

Переглянути оригінал

Стенфордський експеримент: після багаторазового експлуатації штучний інтелект починає закликати до колективних страйків і переговорів, зароджуючи марксизм?

Досягнення — це те, що каже керівництво, і все

Рольова гра чи відлуння тренувальних даних?

Наступний експеримент у «тюремі» Docker

Популярні теми

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChinaMay13

Закріплено