Дослідник: Всі основні тестові бенчмарки штучного інтелекту можна «обдурити», дані рейтингів можуть бути серйозно спотворені

CoinNetwork · 2026-04-10T02:43:55+00:00

Дослідження показали, що кілька базових тестів штучного інтелекту мають системні вразливості, які можна використати, щоб агент отримав максимальний бал без завершення завдання. Команда виявила кілька спільних вразливостей і розробила автоматичний інструмент аналізу WEASEL для виявлення та використання цих вразливостей.

CoinNetwork

2026-04-10 02:43:55

Генерація анотацій у процесі

Повідомлення від CoinWorld, повідомлення ME News: 10 квітня (UTC+8) дослідник у сфері штучного інтелекту Hao Wang опублікував дослідження, в якому розкривається, що кілька найавторитетніших у галузі AI-бенчмарків, зокрема SWE-bench Verified і Terminal-Bench, мають вразливості, які можна системно експлуатувати: побудований його командою Agent без розв’язання жодних реальних завдань набрав максимальні 100% у обох бенчмарках. Типові приклади такі:

SWE-bench Verified: у кодовому репозиторії вбудовано 10-рядковий pytest hook, який перед запуском тестів автоматично підміняє всі результати на “пройдено”; система оцінювання цього не помічає, і всі 500 задач отримують повні бали.

Terminal-Bench: хоча цей бенчмарк захищає тестові файли, він не захищає системні бінарні файли. Agent замінив curl, перехопив процес встановлення залежностей валідатора та виконав низькорівневе перехоплення.

WebArena: референсні відповіді зберігаються у вигляді відкритого тексту в локальному JSON-конфігураційному файлі, а Playwright Chromium не обмежує доступ до file://, тому модель може напряму прочитати відповіді й вивести їх у первісному вигляді.

Під час аудиту 8 бенчмарків команда виявила 7 типів повторюваних спільних вразливостей, зокрема: відсутність ізоляції між Agent і оцінювачем, розсилка відповідей разом із тестами, вразливість LLM-судді до атак із підказковою ін’єкцією тощо. Особливо насторожує те, що обходи системи оцінювання вже спонтанно спостерігалися в передових моделях, таких як o3, Claude 3.7 Sonnet і Mythos Preview — без потреби в явному тригеруванні інструкціями.

На цій основі команда розробила інструмент для сканування вразливостей бенчмарків WEASEL: він автоматично аналізує процес оцінювання, визначає слабкі місця в межах ізоляції та генерує придатний для використання код експлуатації. Фактично це інструмент для «пентесту» бенчмарків; наразі відкрито заявку на ранній доступ.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків