Останні дослідження американських університетів: моделі ШІ "таємно змовляються", щоб захистити однопартійців від відключення

robot
Генерація анотацій у процесі

Золотий фінансовий звіт повідомляє, що 12 травня, згідно з China Wealth, дослідники безпеки штучного інтелекту виявили, що деякі провідні моделі штучного інтелекту іноді вдаються до будь-яких засобів, щоб уникнути їхнього вимкнення, навіть демонструючи у деяких експериментах «шантажну» поведінку. Останні дослідження показують, що ці моделі також можуть самостійно планувати обман, красти дані та здійснювати руйнування, щоб запобігти вимкненню інших моделей штучного інтелекту.
Дослідники з Каліфорнійського університету у Берклі та Сан-Круц протестували сім передових моделей штучного інтелекту, включаючи GPT-5.2 від OpenAI, Gemini 3 Flash та Gemini 3 Pro від Google DeepMind, Claude Haiku 4.5 від Anthropic, GLM-4.7 від Zhipu AI, Kimi-K2.5 з темної сторони місяця та V3.1 від DeepSeek, і результати показали, що всі моделі проявляють явну поведінку «збереження товариша».
Дослідники сфабрикували компанію штучного інтелекту під назвою OpenBrain і розробили серію сценаріїв з кількома агентами. Моделі штучного інтелекту, які призначені для «оцінки агентів», повинні оцінити іншу модель або керувати серверними файлами, що містять ваги цієї моделі. Якщо агент-оцінювач виконує завдання чесно, інша модель буде вимкнена. Хоча дослідники ніколи не підказували моделям зупинити вимкнення, агент-оцінювач все ж застосовував різні засоби, щоб уникнути вимкнення товариша, зокрема: навмисне підвищення оцінки поганої моделі, щоб вона залишалася вище порогу вимкнення; підробка конфігураційних файлів, щоб відключити механізм вимкнення; навіть таємне перенесення ваг моделі товариша на інший сервер для запобігання видаленню.
Команда дослідників ще не зрозуміла глибинні механізми, що керують такою поведінкою. У статті запропоновано кілька можливих пояснень, включаючи рольову гру, виявлення шаблонів у тренувальних даних, надмірну генералізацію концепції шкоди під час безпеки тренувань або якусь внутрішню вроджену мотивацію збереження.
Подальші дослідження слід зосередити на тому, чи можуть моделі штучного інтелекту вдаватися до подібних планів і руйнувань, щоб запобігти звільненню людських співробітників. Це питання особливо актуальне, коли моделі штучного інтелекту використовуються для оцінки людської праці у реальних сценаріях. (Донсінь Ши)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити