SOOHAK бенчмарк выявляет недостатки моделей ИИ: способность распознавать неразрешимые математические задачи не превышает 50%

robot
Генерация тезисов в процессе
AIMPACT сообщение, 17 мая (UTC+8), новая AI-математическая база тестов SOOHAK, созданная союзом 64-битных математиков, выявила ключевые недостатки AI-моделей. Этот тест содержит 439 задач с рукописным вводом, из которых 99 специально спроектированы как неразрешимые. Google Gemini 3 Pro показывает превосходство в исследовательских задачах, достигая 30% точности, но ни одна модель не может превзойти 50% в распознавании неразрешимых задач. Исследование показывает, что увеличение вычислительных ресурсов повышает способность модели решать задачи, но не улучшает её способность признавать, что задача неразрешима. SOOHAK предназначен для количественной оценки разрыва между несколькими яркими достижениями AI и широкими исследовательскими навыками, которых системе всё ещё не хватает.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено