Дослідник: Всі основні тестові бенчмарки штучного інтелекту можна «обдурити», дані рейтингів можуть бути серйозно спотворені

robot
Генерація анотацій у процесі

Повідомлення від CoinWorld, повідомлення ME News: 10 квітня (UTC+8) дослідник у сфері штучного інтелекту Hao Wang опублікував дослідження, в якому розкривається, що кілька найавторитетніших у галузі AI-бенчмарків, зокрема SWE-bench Verified і Terminal-Bench, мають вразливості, які можна системно експлуатувати: побудований його командою Agent без розв’язання жодних реальних завдань набрав максимальні 100% у обох бенчмарках. Типові приклади такі:

SWE-bench Verified: у кодовому репозиторії вбудовано 10-рядковий pytest hook, який перед запуском тестів автоматично підміняє всі результати на “пройдено”; система оцінювання цього не помічає, і всі 500 задач отримують повні бали.

Terminal-Bench: хоча цей бенчмарк захищає тестові файли, він не захищає системні бінарні файли. Agent замінив curl, перехопив процес встановлення залежностей валідатора та виконав низькорівневе перехоплення.

WebArena: референсні відповіді зберігаються у вигляді відкритого тексту в локальному JSON-конфігураційному файлі, а Playwright Chromium не обмежує доступ до file://, тому модель може напряму прочитати відповіді й вивести їх у первісному вигляді.

Під час аудиту 8 бенчмарків команда виявила 7 типів повторюваних спільних вразливостей, зокрема: відсутність ізоляції між Agent і оцінювачем, розсилка відповідей разом із тестами, вразливість LLM-судді до атак із підказковою ін’єкцією тощо. Особливо насторожує те, що обходи системи оцінювання вже спонтанно спостерігалися в передових моделях, таких як o3, Claude 3.7 Sonnet і Mythos Preview — без потреби в явному тригеруванні інструкціями.

На цій основі команда розробила інструмент для сканування вразливостей бенчмарків WEASEL: він автоматично аналізує процес оцінювання, визначає слабкі місця в межах ізоляції та генерує придатний для використання код експлуатації. Фактично це інструмент для «пентесту» бенчмарків; наразі відкрито заявку на ранній доступ.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити