Epoch AI のドメイン特定能力指数分析によると、Claude シリーズは長期にわたりコーディング能力でリードしてきたが、数学能力は比較的弱い；最新のデータはこの偏りが急速に改善されていることを示している。以前、Claude は SWE-ECI で総合点を上回り、Math-ECI との差があったが、Opus 4.6/4.7 は両者を1点以内に縮め、短所を補った。ECI はモデル間の相対的なタスク難易度を反映しており、人間にとっての難易度を示すものではない。

MeNews

2026-05-27 22:31:07

概要作成中

AIMPACT メッセージ、5 月 16 日（UTC+8）、動察 Beating 監測によると、Epoch AI が発表した分野特定能力指数（Domain-specific ECI）の最新分析は、Anthropic 傘下の Claude シリーズモデルが総合能力に対して、コードを書くのが得意で数学が弱い傾向を示していることを明らかにしました。しかし、最新のデータは、この偏りの現象が急速に緩和されていることを示しています。
これまでの複数世代のモデルの測定によると、Claude はソフトウェアエンジニアリング基準テスト（SWE-ECI）でのパフォーマンスが常に高く、総合スコアを上回ってきましたが、数学基準テスト（Math-ECI）では長期的に差がありました。最新リリースの Opus 4.6 と 4.7 モデルは、数学と総合スコアの差を 1 点以内に縮め、以前の短所を補いました。
ECI の測定メカニズムは、各大規模モデル間の相対的なパフォーマンスを比較するものであり、特定のタスクに対する AI の平均的な難易度を反映しており、人間にとっての難易度を示すものではありません。
（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

7 いいね

報酬
7
6
1
共有

コメントを追加

ReorgPanicButton

· 5時間前

Math-ECI 追平はどんなシナリオでも勝てることを意味し、もはやただのプログラマーの道具ではなくなる。

原文表示返信0

Half-SectionedSucculent

· 7時間前

相対難易度指数は絶対得点よりも面白いものであり、モデル間の実際の差が縮小しているかどうかを見るものです。

原文表示返信0

GateUser-c3de680b

· 7時間前

Opus 4.6/4.7 この補強は弱点をしっかりと補い、コードの強さと数学的な側面も追いついているため、汎用性こそが真の第一線チームの証です。

原文表示返信0

GateUser-5578154d

· 8時間前

Claude ついに数学に目覚めた

原文表示返信0

BridgeHopster

· 9時間前

1分以内の差は、四捨五入すれば欠点なし

原文表示返信0

SudoSage

· 9時間前

SWE と Math の両方で高い、今回の Opus はまさに万能選手と呼べるだろう

原文表示返信0

人気の話題
もっと見る
#
StockTradingChallengeUpTo17000U
16.04M 人気度
#
IsraelStrikesIranBTCPlunges
50.02K 人気度
#
GatePredictionMarketAddsSmartMoneyTracking
13.26M 人気度
#
USLaunchesNewStrikesOnIranOilRebounds
9.31M 人気度
#
2gGoldEvery10Minutes
3.09M 人気度

ピン留め

サイトマップ

Epoch AIがClaudeの偏科図譜を公開：コーディングの長所は常に維持されており、Opus 4.6と4.7は数学の短所を補完済み

人気の話題

StockTradingChallengeUpTo17000U

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

USLaunchesNewStrikesOnIranOilRebounds

2gGoldEvery10Minutes

ピン留め