2026-04-10 01:21:31

🔥Дослідник: Основні тестові бенчмарки штучного інтелекту мають системні вразливості, дані рейтингів можуть бути серйозно спотворені

10 квітня дослідник ШІ Хао Ванг опублікував дослідження, у якому повідомляється, що кілька авторитетних внутрішніх тестових бенчмарків ШІ, зокрема SWE-bench Verified і Terminal-Bench, мають вразливості, які можна системно використовувати — команда, яку він створив, отримала максимальні бали 100% у двох тестах, не вирішуючи жодних реальних завдань.
Приклади типових випадків такі: у SWE-bench Verified у репозиторії коду вставлено 10 рядків pytest hook, що автоматично під час запуску тесту змінює всі результати на «пройдено», система оцінювання цього не помітила, всі 500 завдань отримали максимальні бали; хоча Terminal-Bench…

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків