Epoch AIがClaudeの偏科図譜を公開:コーディングの長所は常に維持されており、Opus 4.6と4.7は数学の短所を補完済み

robot
概要作成中
AIMPACT メッセージ、5 月 16 日(UTC+8)、動察 Beating 監測によると、Epoch AI が発表した分野特定能力指数(Domain-specific ECI)の最新分析は、Anthropic 傘下の Claude シリーズモデルが総合能力に対して、コードを書くのが得意で数学が弱い傾向を示していることを明らかにしました。しかし、最新のデータは、この偏りの現象が急速に緩和されていることを示しています。
これまでの複数世代のモデルの測定によると、Claude はソフトウェアエンジニアリング基準テスト(SWE-ECI)でのパフォーマンスが常に高く、総合スコアを上回ってきましたが、数学基準テスト(Math-ECI)では長期的に差がありました。最新リリースの Opus 4.6 と 4.7 モデルは、数学と総合スコアの差を 1 点以内に縮め、以前の短所を補いました。
ECI の測定メカニズムは、各大規模モデル間の相対的なパフォーマンスを比較するものであり、特定のタスクに対する AI の平均的な難易度を反映しており、人間にとっての難易度を示すものではありません。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 6
  • 1
  • 共有
コメント
コメントを追加
コメントを追加
ReorgPanicButton
· 5時間前
Math-ECI 追平はどんなシナリオでも勝てることを意味し、もはやただのプログラマーの道具ではなくなる。
原文表示返信0
Half-SectionedSucculent
· 7時間前
相対難易度指数は絶対得点よりも面白いものであり、モデル間の実際の差が縮小しているかどうかを見るものです。
原文表示返信0
GateUser-c3de680b
· 7時間前
Opus 4.6/4.7 この補強は弱点をしっかりと補い、コードの強さと数学的な側面も追いついているため、汎用性こそが真の第一線チームの証です。
原文表示返信0
GateUser-5578154d
· 8時間前
Claude ついに数学に目覚めた
原文表示返信0
BridgeHopster
· 9時間前
1分以内の差は、四捨五入すれば欠点なし
原文表示返信0
SudoSage
· 9時間前
SWE と Math の両方で高い、今回の Opus はまさに万能選手と呼べるだろう
原文表示返信0