Opus 4.6/4.7 把数学短板补到跟代码能力持平,ECI 这指标有意思——它测的是模型之间的相对难度,不是跟人比,所以别误会成「超越人类数学家」了

ME News
Epoch AI发布Claude偏科图谱:写代码长板一直在,Opus 4.6和4.7已补齐数学短板
Epoch AI 的域特定能力指数分析显示,Claude 系列在写代码方面长期领先,但数学能力相对薄弱;最新数据表明这一偏科正在快速缓解。此前 Claude 在 SWE-ECI 高于综合分、Math-ECI 存在差距,而 Opus 4.6/4.7 将两者缩小到1分内,补齐短板。ECI 反映模型间的相对任务难度,而非对人类的难度。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论
  • 置顶