Аналіз індексу доменно-специфічних здібностей Epoch AI показує, що серія Claude довгий час лідирувала у написанні коду, але має відносно слабкі математичні навички; останні дані свідчать, що ця диспропорція швидко зменшується. Раніше Claude мав різницю між високим показником SWE-ECI та загальним балом, а Math-ECI був нижчим, але Opus 4.6/4.7 зменшили цю різницю до менш ніж 1 бал, заповнивши прогалини. ECI відображає відносну складність завдань для моделей, а не для людини.

MeNews

2026-05-27 22:31:07

Генерація анотацій у процесі

AIMPACT повідомлення, 16 травня (UTC+8), згідно з моніторингом Beating від Dongcha, оприлюднено останній аналіз індексу здатностей, специфічних для домену (Domain-specific ECI), від Epoch AI, який розкриває, що моделі серії Claude під брендом Anthropic у порівнянні з їх загальними можливостями мають сильні навички у написанні коду та слабкі у математиці. Однак останні дані показують, що ця тенденція слабкості у певних сферах швидко зменшується. За оцінками, у попередніх поколіннях моделей Claude стабільно показували високі результати у тесті на інженерію програмного забезпечення (SWE-ECI), тоді як у тесті на математику (Math-ECI) довгий час існувала різниця. Останні моделі Opus 4.6 та 4.7 зменшили різницю між математичними та загальними балами до менш ніж 1 бал, заповнивши попередні прогалини. Механізм розрахунку ECI базується на порівнянні відносних показників між великими моделями, тому він безпосередньо відображає середню складність конкретних завдань для ШІ, а не для людини. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

7 лайків

Нагородити
7
6
1
Поділіться

Прокоментувати

Додати коментар

ReorgPanicButton

· 5год тому

Math-ECI рівність означає, що будь-який сценарій тепер можна реалізувати, більше не лише інструмент для програмістів