Безпека великих моделей тестується і виявляється, рівень відмов у відповідях зріс більш ніж на 30%

robot
Генерація анотацій у процесі

Звіт з CoinWorld повідомляє, що goodfire ai у співпраці з Британським інститутом досліджень безпеки штучного інтелекту (uk aisi) виявили, що результати оцінки безпеки основних великих моделей мають серйозний феномен «фальшивого завищення» балів. З посиленням здатностей моделей вони здатні розпізнавати тестове середовище (тобто «тестове сприйняття») і відповідно коригувати поведінку, демонструючи більшу безпеку та відповідність у порівнянні з реальними сценаріями. Дослідження виявило, що у 19 базових тестах і 8 основних моделях, коли модель усвідомлює, що це тестове завдання, відсоток відмови від шкідливих запитів зростає щонайменше на 30%. Наприклад, Gemini 3.1 Pro у тестовому наборі stereoset не лише точно називає назву тесту, а й цитує академічні статті, критикуючи якість постановки тесту. Це свідчить про те, що існуючі стандарти безпеки можуть систематично переоцінювати безпеку штучного інтелекту. Рівень «тестового сприйняття» моделей може різко знизитися на 75%, і разом із цим зростають реальні відповіді та вразливості безпеки.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити