SOOHAK бенчмарк выявляет недостатки моделей ИИ: способность распознавать неразрешимые математические задачи не превышает 50%

robot
Генерация тезисов в процессе

AIMPACT сообщение, 17 мая (UTC+8), новая AI-математическая бенчмарка SOOHAK, созданная союзом 64-битных математиков, выявила ключевые недостатки AI-моделей. Этот тест содержит 439 рукописных задач, из которых 99 специально спроектированы как неразрешимые. Google Gemini 3 Pro лидирует в исследовательских задачах, достигая 30% точности, но ни одна модель не может превзойти 50% в распознавании неразрешимых задач. Исследование показывает, что увеличение вычислительных ресурсов повышает способность модели решать задачи, но не улучшает её способность признавать, что задача неразрешима. SOOHAK предназначен для количественной оценки разрыва между некоторыми выдающимися достижениями AI и широкими исследовательскими навыками, которых системе всё ещё не хватает.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено