SOOHAK бенчмарк выявляет недостатки моделей ИИ: способность распознавать неразрешимые математические задачи не превышает 50%

robot
Генерация тезисов в процессе
AIMPACT сообщение, 17 мая (UTC+8), новая AI-математическая бенчмарк-тестовая система SOOHAK, созданная альянсом из 64 математиков, выявила ключевые недостатки AI-моделей. Этот тест включает 439 задач с рукописным вводом, из которых 99 специально спроектированы как неразрешимые. Google Gemini 3 Pro лидирует в исследовательских задачах, достигая 30% точности, но ни одна модель не может превзойти 50% в распознавании неразрешимых задач. Исследования показывают, что увеличение вычислительных ресурсов повышает способность модели решать задачи, но не улучшает её способность признавать, что задача неразрешима. SOOHAK нацелен на количественную оценку разрыва между ограниченными достижениями AI и недостаточной широкой исследовательской подготовкой системы.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено