Epoch AI 的域特定能力指数分析显示，Claude 系列在写代码方面长期领先，但数学能力相对薄弱；最新数据表明这一偏科正在快速缓解。此前 Claude 在 SWE-ECI 高于综合分、Math-ECI 存在差距，而 Opus 4.6/4.7 将两者缩小到1分内，补齐短板。ECI 反映模型间的相对任务难度，而非对人类的难度。

ME News

2026-05-27 22:31:07

摘要生成中

AIMPACT 消息，5 月 16 日（UTC+8），据动察 Beating 监测，Epoch AI 发布领域特定能力指数（Domain-specific ECI）最新分析，揭示了 Anthropic 旗下 Claude 系列模型相对其综合能力一直表现为写代码强、数学弱。不过最新数据显示，这一偏科现象正在快速缓解。根据测算，在过往多代模型中，Claude 在软件工程基准测试（SWE-ECI）上的表现一直稳定高于其综合得分，而在数学基准测试（Math-ECI）上长期存在落差。最新发布的 Opus 4.6 和 4.7 模型已将数学与综合得分的差距缩小至 1 分以内，补齐了此前的短板。 ECI 的测算机制是比较各大模型之间的相对表现，因此它直接反映特定任务对 AI 的平均难度，而非对人类的难度。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

7人点赞了这条动态

赞赏
7
5
1
分享

请输入评论内容

半剖多肉

· 1小时前

相对难度指数比绝对分数有意思，看的是模型间的真实差距缩小

GateUser-c3de680b

· 2小时前

Opus 4.6/4.7 这波补强弱项很稳，代码强数学也跟上，通用性才算真·第一梯队

GateUser-5578154d

· 3小时前

Claude 终于数学支棱起来了

Bridge Hopster

· 3小时前

1分内的差距，四舍五入就是无短板

SudoSage

· 3小时前

SWE 和 Math 双高，这代 Opus 可以叫全能选手了

Epoch AI发布Claude偏科图谱：写代码长板一直在，Opus 4.6和4.7已补齐数学短板

热门话题

股票交易挑战最高赢17000U

特朗普支持CFTC管辖预测市场

Gate预测市场升级聪明钱追踪

美光市值突破1万亿美元

交易CFD送黄金

置顶