SOOHAK бенчмарк виявляє недоліки моделей ШІ: здатність розпізнавати нерозв'язні математичні задачі не перевищує 50%

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 17 травня (UTC+8), новий тест на базі AI для математичних стандартів SOOHAK, створений альянсом 64-літніх математиків, розкриває ключові недоліки моделей AI. Цей тест містить 439 рукописних завдань, з яких 99 навмисно спроектовані без рішення. Google Gemini 3 Pro випереджає у дослідницьких задачах, досягаючи 30% точності, але жодна модель не може перевищити 50% у розпізнаванні безрішенних завдань. Дослідження показало, що додаткові обчислювальні ресурси покращують здатність моделей вирішувати задачі, але не підвищують їх здатність визнавати безрішенність. SOOHAK має на меті кількісно оцінити різницю між кількома вражаючими досягненнями AI та широкими навичками досліджень, яких системи все ще позбавлені.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено