AIMPACT メッセージ、5 月 16 日(UTC+8)、動察 Beating 監測によると、Epoch AI が発表した分野特定能力指数(Domain-specific ECI)の最新分析は、Anthropic 傘下の Claude シリーズモデルが総合能力に対して、コードを書くのが得意で数学が弱い傾向を示していることを明らかにしました。しかし、最新のデータは、この偏りの現象が急速に緩和されていることを示しています。 これまでの複数世代のモデルの測定によると、Claude はソフトウェアエンジニアリング基準テスト(SWE-ECI)でのパフォーマンスが常に高く、総合スコアを上回ってきましたが、数学基準テスト(Math-ECI)では長期的に差がありました。最新リリースの Opus 4.6 と 4.7 モデルは、数学と総合スコアの差を 1 点以内に縮め、以前の短所を補いました。 ECI の測定メカニズムは、各大規模モデル間の相対的なパフォーマンスを比較するものであり、特定のタスクに対する AI の平均的な難易度を反映しており、人間にとっての難易度を示すものではありません。 (出典:BlockBeats)
Epoch AIがClaudeの偏科図譜を公開:コーディングの長所は常に維持されており、Opus 4.6と4.7は数学の短所を補完済み
これまでの複数世代のモデルの測定によると、Claude はソフトウェアエンジニアリング基準テスト(SWE-ECI)でのパフォーマンスが常に高く、総合スコアを上回ってきましたが、数学基準テスト(Math-ECI)では長期的に差がありました。最新リリースの Opus 4.6 と 4.7 モデルは、数学と総合スコアの差を 1 点以内に縮め、以前の短所を補いました。
ECI の測定メカニズムは、各大規模モデル間の相対的なパフォーマンスを比較するものであり、特定のタスクに対する AI の平均的な難易度を反映しており、人間にとっての難易度を示すものではありません。
(出典:BlockBeats)