Opus 4.6/4.7 把数学短板补到跟代码能力持平,ECI 这指标有意思——它测的是模型之间的相对难度,不是跟人比,所以别误会成「超越人类数学家」了
ME News
Epoch AI发布Claude偏科图谱:写代码长板一直在,Opus 4.6和4.7已补齐数学短板
Epoch AI 的域特定能力指数分析显示,Claude 系列在写代码方面长期领先,但数学能力相对薄弱;最新数据表明这一偏科正在快速缓解。此前 Claude 在 SWE-ECI 高于综合分、Math-ECI 存在差距,而 Opus 4.6/4.7 将两者缩小到1分内,补齐短板。ECI 反映模型间的相对任务难度,而非对人类的难度。
Opus 4.6/4.7 把数学短板补到跟代码能力持平,ECI 这指标有意思——它测的是模型之间的相对难度,不是跟人比,所以别误会成「超越人类数学家」了