Epoch AI 發布 Claude 偏科圖譜:寫程式長板一直在,Opus 4.6 和 4.7 已補齊數學短板

robot
摘要生成中
AIMPACT 消息,5 月 16 日(UTC+8),據 動察 Beating 監測,Epoch AI 發布領域特定能力指數(Domain-specific ECI)最新分析,揭示了 Anthropic 旗下 Claude 系列模型相對其綜合能力一直表現為寫代碼強、數學弱。不過最新數據顯示,這一偏科現象正在快速緩解。 根據測算,在過往多代模型中,Claude 在軟件工程基準測試(SWE-ECI)上的表現一直穩定高於其綜合得分,而在數學基準測試(Math-ECI)上長期存在落差。最新發布的 Opus 4.6 和 4.7 模型已將數學與綜合得分的差距縮小至 1 分以內,補齊了此前的短板。 ECI 的測算機制是比較各大模型之間的相對表現,因此它直接反映特定任務對 AI 的平均難度,而非對人類的難度。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 5
  • 1
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
半剖多肉
· 1小時前
相對難度指數比絕對分數更有趣,關注的是模型之間的真實差距縮小
查看原文回復0
GateUser-c3de680b
· 1小時前
Opus 4.6/4.7 這波補強弱項很穩,程式碼強數學也跟上,通用性才算真·第一梯隊
查看原文回復0
GateUser-5578154d
· 2小時前
Claude 終於數學變厲害起來了
查看原文回復0
Bridge Hopster
· 3小時前
1分鐘內的差距,四捨五入就是無短板
查看原文回復0
SudoSage
· 3小時前
SWE 和 Math 雙高,這代 Opus 可以叫全能選手了
查看原文回復0