El análisis del índice de capacidades específicas del dominio de Epoch AI muestra que la serie Claude ha liderado a largo plazo en la escritura de código, pero tiene una capacidad matemática relativamente débil; los datos más recientes indican que esta desviación se está reduciendo rápidamente. Anteriormente, Claude tenía una puntuación en SWE-ECI superior a la puntuación general, y existía una brecha en Math-ECI, pero Opus 4.6/4.7 las redujo a menos de 1 punto, cubriendo las deficiencias. ECI refleja la dificultad relativa de las tareas entre modelos, no la dificultad para los humanos.

MeNews

2026-05-27 22:31:07

Generación de resúmenes en curso

AIMPACT Mensaje, 16 de mayo (UTC+8), según la monitorización de Beating de Dongcha, el análisis más reciente del Índice de Capacidad Específica del Dominio (Domain-specific ECI) publicado por Epoch AI, revela que el modelo Claude de la serie Anthropic ha mostrado una tendencia a ser fuerte en programación y débil en matemáticas en comparación con su capacidad general. Sin embargo, los datos más recientes indican que esta tendencia de especialización está disminuyendo rápidamente. Según las estimaciones, en varias generaciones anteriores de modelos, Claude ha mantenido un rendimiento estable y superior en la prueba de referencia de ingeniería de software (SWE-ECI), mientras que en la prueba de referencia matemática (Math-ECI) ha tenido una brecha persistente. Los modelos Opus 4.6 y 4.7, lanzados recientemente, han reducido la diferencia entre las puntuaciones en matemáticas y en capacidad general a menos de 1 punto, cerrando así la brecha anterior. El mecanismo de cálculo del ECI compara el rendimiento relativo entre los principales modelos, reflejando directamente la dificultad media de las tareas específicas para la IA, en lugar de la dificultad para los humanos. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

7 me gusta

Recompensa
7
6
1
Compartir

Comentar

Añadir un comentario

ReorgPanicButton

· hace3h

Math-ECI igualar significa que en cualquier escenario se puede luchar, ya no solo una herramienta para programadores

Ver originalResponder0

Half-SectionedSucculent

· hace5h

El índice de dificultad relativa es más interesante que la puntuación absoluta, ya que refleja la reducción de la diferencia real entre los modelos.

Ver originalResponder0

GateUser-c3de680b

· hace6h

Opus 4.6/4.7 Esta ronda de refuerzo de debilidades es muy sólida, el código fuerte en matemáticas también ha mejorado, la versatilidad es realmente la primera línea.

Ver originalResponder0

GateUser-5578154d

· hace7h

Claude finalmente ha empezado a entender las matemáticas

Ver originalResponder0

BridgeHopster

· hace7h

La diferencia en un minuto, redondeada, significa que no hay debilidades

Ver originalResponder0

SudoSage

· hace7h

SWE y Math doble alto, esta generación de Opus puede llamarse un competidor versátil

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
16.03M Popularidad
#
IsraelStrikesIranBTCPlunges
50K Popularidad
#
GatePredictionMarketAddsSmartMoneyTracking
13.25M Popularidad
#
USLaunchesNewStrikesOnIranOilRebounds
9.31M Popularidad
#
2gGoldEvery10Minutes
3.09M Popularidad

Fijado

Epoch AI lanza el mapa de especialización de Claude: la habilidad de programar sigue siendo fuerte, Opus 4.6 y 4.7 ya han compensado las deficiencias en matemáticas

Temas de actualidad

StockTradingChallengeUpTo17000U

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

USLaunchesNewStrikesOnIranOilRebounds

2gGoldEvery10Minutes

Fijado