SOOHAK — это математический эталон AI, созданный альянсом 64-битных математиков, содержащий 439 рукописных задач, из которых 99 специально сделаны без решения. Исследования показывают, что Google Gemini 3 Pro достигает примерно 30% точности в исследовательских задачах, но ни одна модель не может превзойти 50% в распознавании безрешенных задач. Увеличение вычислительных ресурсов может повысить способность решать задачи, но трудно повысить способность признавать отсутствие решения. SOOHAK предназначен для количественной оценки разрыва между небольшими достижениями AI и системными пробелами в исследовательских навыках.

MeNews

2026-05-17 11:20:34

Генерация тезисов в процессе

AIMPACT сообщение, 17 мая (UTC+8), новая AI-математическая бенчмарка SOOHAK, созданная союзом 64-битных математиков, выявила ключевые недостатки AI-моделей. Этот тест содержит 439 рукописных задач, из которых 99 специально спроектированы как неразрешимые. Google Gemini 3 Pro лидирует в исследовательских задачах, достигая 30% точности, но ни одна модель не может превзойти 50% в распознавании неразрешимых задач. Исследование показывает, что увеличение вычислительных ресурсов повышает способность модели решать задачи, но не улучшает её способность признавать, что задача неразрешима. SOOHAK предназначен для количественной оценки разрыва между некоторыми выдающимися достижениями AI и широкими исследовательскими навыками, которых системе всё ещё не хватает.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
1.95M Популярность
#
CLARITYActPassesSenateCommittee
3.58M Популярность
#
IsraelStrikesIranBTCPlunges
47.35K Популярность
#
#DailyPolymarketHotspot
972.58K Популярность
#
BitcoinVShapedReversalBack
227.15M Популярность

Закреплено

Карта сайта

SOOHAK бенчмарк выявляет недостатки моделей ИИ: способность распознавать неразрешимые математические задачи не превышает 50%

Популярные темы

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Закреплено