SOOHAK基准测试揭示AI模型缺陷:识别无解数学问题能力均未超过50%

robot
摘要生成中

AIMPACT 消息,5 月 17 日(UTC+8),由64位数学家联盟创建的新型AI数学基准测试SOOHAK揭示AI模型关键缺陷。该测试包含439个手写任务,其中99个任务被故意设计为无解。Google Gemini 3 Pro在研究级问题上领先,达30%准确率,但没有任何模型能在识别无解任务上超过50%。研究发现,更多计算资源可提升模型解决问题能力,却无法增强其承认问题无解的能力。SOOHAK旨在量化AI少数亮眼成果与系统仍缺乏的广泛研究技能之间的差距。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论