Анализ индекса доменных способностей Epoch AI показывает, что серия Claude долгое время лидировала в написании кода, но имела относительно слабые математические навыки; последние данные свидетельствуют о быстром сокращении этого дисбаланса. Ранее у Claude разница между SWE-ECI выше общего балла, а Math-ECI отставал, тогда как Opus 4.6/4.7 сократили эти различия до менее чем 1 балла, устранив слабые стороны. ECI отражает относительную сложность задач для модели, а не для человека.

MeNews

2026-05-27 22:31:07

Генерация тезисов в процессе

AIMPACT сообщение, 16 мая (UTC+8), согласно мониторингу Beating от 动察, опубликован последний анализ Индекса специфических возможностей области (Domain-specific ECI) Epoch AI, который выявил, что модели серии Claude от Anthropic по сравнению с их общими способностями всегда показывали сильные результаты в программировании и слабые в математике. Однако последние данные показывают, что эта тенденция дисбаланса быстро сокращается. Согласно расчетам, в предыдущих моделях Claude стабильно показывал высокие результаты в тесте на программное обеспечение (SWE-ECI), превосходя их общий балл, и имел долгосрочный разрыв в математическом тесте (Math-ECI). Новые модели Opus 4.6 и 4.7 сократили разрыв между математическими и общими баллами до менее чем 1 балла, устранив ранее существовавший недостаток. Механизм расчета ECI основан на сравнении относительных показателей различных моделей, поэтому он напрямую отражает среднюю сложность задачи для ИИ, а не для человека. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

7 Лайков

Награда
7
5
1
Поделиться

комментарий

Добавить комментарий

Half-SectionedSucculent

· 48м назад

Индекс относительной сложности более интересен, чем абсолютный балл, он показывает уменьшение реальной разницы между моделями

Посмотреть ОригиналОтветить0

GateUser-c3de680b

· 1ч назад

Opus 4.6/4.7 Эта волна укрепления слабых сторон очень стабильна, кодирование сильное, математика тоже идет в ногу, универсальность действительно считается первым эшелоном

Посмотреть ОригиналОтветить0

GateUser-5578154d

· 2ч назад

Claude наконец-то начал серьезно заниматься математикой

Посмотреть ОригиналОтветить0

BridgeHopster

· 2ч назад

Разница в одну минуту, при округлении — это отсутствие слабых сторон

Посмотреть ОригиналОтветить0

SudoSage

· 2ч назад

SWE и Math — оба высокого уровня, эта версия Opus может называться универсальным игроком

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
StockTradingChallengeUpTo17000U
16.02M Популярность
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
833.2K Популярность
#
IsraelStrikesIranBTCPlunges
49.81K Популярность
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M Популярность
#
MicronMarketCapBreaks1Trillion
45.82K Популярность

Закреплено

Карта сайта

Epoch AI выпустила карту специализаций Claude: сильные стороны в написании кода остаются, Opus 4.6 и 4.7 уже компенсировали пробелы в математике

Популярные темы

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Закреплено