Epoch AI випустила карту профілів Claude за спеціальностями: навички написання коду залишаються сильними, Opus 4.6 і 4.7 вже заповнили прогалини у математиці

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 16 травня (UTC+8), згідно з моніторингом Beating від Dongcha, оприлюднено останній аналіз індексу здатностей, специфічних для домену (Domain-specific ECI), від Epoch AI, який розкриває, що моделі серії Claude під брендом Anthropic у порівнянні з їх загальними можливостями мають сильні навички у написанні коду та слабкі у математиці. Однак останні дані показують, що ця тенденція слабкості у певних сферах швидко зменшується. За оцінками, у попередніх поколіннях моделей Claude стабільно показували високі результати у тесті на інженерію програмного забезпечення (SWE-ECI), тоді як у тесті на математику (Math-ECI) довгий час існувала різниця. Останні моделі Opus 4.6 та 4.7 зменшили різницю між математичними та загальними балами до менш ніж 1 бал, заповнивши попередні прогалини. Механізм розрахунку ECI базується на порівнянні відносних показників між великими моделями, тому він безпосередньо відображає середню складність конкретних завдань для ШІ, а не для людини. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • 1
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
ReorgPanicButton
· 5год тому
Math-ECI рівність означає, що будь-який сценарій тепер можна реалізувати, більше не лише інструмент для програмістів
Переглянути оригіналвідповісти на0
Half-SectionedSucculent
· 7год тому
Відносний індекс складності цікавіший за абсолютний бал, оскільки він показує зменшення реальної різниці між моделями.
Переглянути оригіналвідповісти на0
GateUser-c3de680b
· 7год тому
Opus 4.6/4.7 Ця хвиля посилення слабких місць дуже стабільна, код сильний, математика також йде в ногу, універсальність справді становить перший ешелон
Переглянути оригіналвідповісти на0
GateUser-5578154d
· 8год тому
Claude нарешті почав серйозно займатися математикою
Переглянути оригіналвідповісти на0
BridgeHopster
· 9год тому
Різниця в межах однієї хвилини, заокруглення — і немає слабких місць
Переглянути оригіналвідповісти на0
SudoSage
· 9год тому
SWE та Math — дві високі галузі, ця версія Opus може називатися універсальним гравцем
Переглянути оригіналвідповісти на0
  • Закріплено