Epoch AI выпустила карту специализаций Claude: сильные стороны в написании кода остаются, Opus 4.6 и 4.7 уже компенсировали пробелы в математике

robot
Генерация тезисов в процессе
AIMPACT сообщение, 16 мая (UTC+8), согласно мониторингу Beating от 动察, опубликован последний анализ Индекса специфических возможностей области (Domain-specific ECI) Epoch AI, который выявил, что модели серии Claude от Anthropic по сравнению с их общими способностями всегда показывали сильные результаты в программировании и слабые в математике. Однако последние данные показывают, что эта тенденция дисбаланса быстро сокращается. Согласно расчетам, в предыдущих моделях Claude стабильно показывал высокие результаты в тесте на программное обеспечение (SWE-ECI), превосходя их общий балл, и имел долгосрочный разрыв в математическом тесте (Math-ECI). Новые модели Opus 4.6 и 4.7 сократили разрыв между математическими и общими баллами до менее чем 1 балла, устранив ранее существовавший недостаток. Механизм расчета ECI основан на сравнении относительных показателей различных моделей, поэтому он напрямую отражает среднюю сложность задачи для ИИ, а не для человека. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • 1
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Half-SectionedSucculent
· 48м назад
Индекс относительной сложности более интересен, чем абсолютный балл, он показывает уменьшение реальной разницы между моделями
Посмотреть ОригиналОтветить0
GateUser-c3de680b
· 1ч назад
Opus 4.6/4.7 Эта волна укрепления слабых сторон очень стабильна, кодирование сильное, математика тоже идет в ногу, универсальность действительно считается первым эшелоном
Посмотреть ОригиналОтветить0
GateUser-5578154d
· 2ч назад
Claude наконец-то начал серьезно заниматься математикой
Посмотреть ОригиналОтветить0
BridgeHopster
· 2ч назад
Разница в одну минуту, при округлении — это отсутствие слабых сторон
Посмотреть ОригиналОтветить0
SudoSage
· 2ч назад
SWE и Math — оба высокого уровня, эта версия Opus может называться универсальным игроком
Посмотреть ОригиналОтветить0
  • Закреплено