Epoch AI 的域特定能力指數分析顯示，Claude 系列在寫代碼方面長期領先，但數學能力相對薄弱；最新數據表明這一偏科正在快速緩解。此前 Claude 在 SWE-ECI 高於綜合分、Math-ECI 存在差距，而 Opus 4.6/4.7 將兩者縮小到1分內，補齊短板。ECI 反映模型間的相對任務難度，而非對人類的難度。

ME News

2026-05-27 22:31:07

摘要生成中

AIMPACT 消息，5 月 16 日（UTC+8），據動察 Beating 監測，Epoch AI 發布領域特定能力指數（Domain-specific ECI）最新分析，揭示了 Anthropic 旗下 Claude 系列模型相對其綜合能力一直表現為寫代碼強、數學弱。不過最新數據顯示，這一偏科現象正在快速緩解。根據測算，在過往多代模型中，Claude 在軟件工程基準測試（SWE-ECI）上的表現一直穩定高於其綜合得分，而在數學基準測試（Math-ECI）上長期存在落差。最新發布的 Opus 4.6 和 4.7 模型已將數學與綜合得分的差距縮小至 1 分以內，補齊了此前的短板。 ECI 的測算機制是比較各大模型之間的相對表現，因此它直接反映特定任務對 AI 的平均難度，而非對人類的難度。（來源：BlockBeats）

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

7人按讚了這條動態

打賞
7
5
1
分享

回覆

請輸入回覆內容

半剖多肉

· 1小時前

相對難度指數比絕對分數更有趣，關注的是模型之間的真實差距縮小

查看原文回復0

GateUser-c3de680b

· 1小時前

Opus 4.6/4.7 這波補強弱項很穩，程式碼強數學也跟上，通用性才算真·第一梯隊

查看原文回復0

GateUser-5578154d

· 2小時前

Claude 終於數學變厲害起來了

查看原文回復0

Bridge Hopster

· 3小時前

1分鐘內的差距，四捨五入就是無短板

查看原文回復0

SudoSage

· 3小時前

SWE 和 Math 雙高，這代 Opus 可以叫全能選手了

查看原文回復0

Epoch AI 發布 Claude 偏科圖譜：寫程式長板一直在，Opus 4.6 和 4.7 已補齊數學短板

熱門話題

股票交易挑戰最高贏17000U

特朗普支持CFTC管轄預測市場

Gate預測市場升級聰明錢追蹤

美光市值突破1兆美元

交易CFD送黃金

已置頂