SOOHAK бенчмарк виявляє недоліки моделей ШІ: здатність розпізнавати нерозв'язні математичні задачі не перевищує 50%

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 17 травня (UTC+8), новий AI математичний бенчмарк SOOHAK, створений спільнотою 64-бітних математиків, розкрив ключові недоліки AI моделей. Цей тест містить 439 рукописних завдань, з яких 99 навмисно спроектовані без рішення. Google Gemini 3 Pro випереджає у дослідницьких задачах, досягаючи 30% точності, але жодна модель не може перевищити 50% у розпізнаванні безрішенних завдань. Дослідження показало, що додаткові обчислювальні ресурси покращують здатність моделей розв'язувати задачі, але не підвищують їх здатність визнавати відсутність рішення. SOOHAK має на меті кількісно оцінити різницю між кількома яскравими досягненнями AI та широкими навичками досліджень, яких системи все ще позбавлені.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено