SOOHAK бенчмарк виявляє недоліки моделей ШІ: здатність розпізнавати нерозв'язні математичні задачі не перевищує 50%

robot
Генерація анотацій у процесі

AIMPACT повідомлення, 17 травня (UTC+8), новий тест базової математики штучного інтелекту SOOHAK, створений альянсом 64-бітних математиків, розкрив ключові недоліки моделей ШІ. Цей тест містить 439 рукописних завдань, з яких 99 навмисно спроектовані як безрозв’язні. Google Gemini 3 Pro випереджає у дослідницьких питаннях, досягаючи 30% точності, але жодна модель не може перевищити 50% у розпізнаванні безрозв’язних завдань. Дослідження показало, що більше обчислювальних ресурсів може покращити здатність моделей розв’язувати проблеми, але не може підвищити їх здатність визнавати безрозв’язність задач. SOOHAK має на меті кількісно оцінити різницю між кількома яскравими досягненнями ШІ та широкими навичками досліджень, яких системи все ще бракує.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено