Epoch AI发布Claude偏科图谱:写代码长板一直在,Opus 4.6和4.7已补齐数学短板

robot
摘要生成中
AIMPACT 消息,5 月 16 日(UTC+8),据 动察 Beating 监测,Epoch AI 发布领域特定能力指数(Domain-specific ECI)最新分析,揭示了 Anthropic 旗下 Claude 系列模型相对其综合能力一直表现为写代码强、数学弱。不过最新数据显示,这一偏科现象正在快速缓解。 根据测算,在过往多代模型中,Claude 在软件工程基准测试(SWE-ECI)上的表现一直稳定高于其综合得分,而在数学基准测试(Math-ECI)上长期存在落差。最新发布的 Opus 4.6 和 4.7 模型已将数学与综合得分的差距缩小至 1 分以内,补齐了此前的短板。 ECI 的测算机制是比较各大模型之间的相对表现,因此它直接反映特定任务对 AI 的平均难度,而非对人类的难度。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 5
  • 1
  • 分享
评论
请输入评论内容
请输入评论内容
半剖多肉
· 1小时前
相对难度指数比绝对分数有意思,看的是模型间的真实差距缩小
回复0
GateUser-c3de680b
· 2小时前
Opus 4.6/4.7 这波补强弱项很稳,代码强数学也跟上,通用性才算真·第一梯队
回复0
GateUser-5578154d
· 3小时前
Claude 终于数学支棱起来了
回复0
Bridge Hopster
· 3小时前
1分内的差距,四舍五入就是无短板
回复0
SudoSage
· 3小时前
SWE 和 Math 双高,这代 Opus 可以叫全能选手了
回复0