4,760个里程碑喂进去,预测新发现还是抛硬币水平。机制推理再强,遇上没标准答案的未知领域照样抓瞎

CoinNetwork
ИИ пока не может выступать в роли самостоятельного ученого, оценка CUSP показывает, что крупные модели лишены перспективного научного видения
Стэнфорд/Оксфорд/Институт исследований ИИ Элен представили временной бенчмарк CUSP, оценивающий способность ИИ предсказывать научные достижения. Тестирование GPT-5.4, Claude Sonnet 4.5, DeepSeek R1 и других показало хорошие результаты в механистическом рассуждении о существующих технологических путях, но предсказание новых открытий практически случайно, и существует систематическая задержка в времени прорыва. CUSP основан на временных знаниях, включает передовые достижения в Nature/Science, охватывает 4 760 вех и 17 429 задач. Вывод таков, что в научных исследованиях без стандартных ответов существующие модели не могут обеспечить надежное предвидение.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено