🔥Дослідник: Основні тестові бенчмарки штучного інтелекту мають системні вразливості, дані рейтингів можуть бути серйозно спотворені


10 квітня дослідник ШІ Хао Ванг опублікував дослідження, у якому повідомляється, що кілька авторитетних внутрішніх тестових бенчмарків ШІ, зокрема SWE-bench Verified і Terminal-Bench, мають вразливості, які можна системно використовувати — команда, яку він створив, отримала максимальні бали 100% у двох тестах, не вирішуючи жодних реальних завдань.
Приклади типових випадків такі: у SWE-bench Verified у репозиторії коду вставлено 10 рядків pytest hook, що автоматично під час запуску тесту змінює всі результати на «пройдено», система оцінювання цього не помітила, всі 500 завдань отримали максимальні бали; хоча Terminal-Bench…
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити