Epoch AI lanza el mapa de especialización de Claude: la habilidad de programar sigue siendo fuerte, Opus 4.6 y 4.7 ya han compensado las deficiencias en matemáticas

robot
Generación de resúmenes en curso
AIMPACT Mensaje, 16 de mayo (UTC+8), según la monitorización de Beating de Dongcha, el análisis más reciente del Índice de Capacidad Específica del Dominio (Domain-specific ECI) publicado por Epoch AI, revela que el modelo Claude de la serie Anthropic ha mostrado una tendencia a ser fuerte en programación y débil en matemáticas en comparación con su capacidad general. Sin embargo, los datos más recientes indican que esta tendencia de especialización está disminuyendo rápidamente. Según las estimaciones, en varias generaciones anteriores de modelos, Claude ha mantenido un rendimiento estable y superior en la prueba de referencia de ingeniería de software (SWE-ECI), mientras que en la prueba de referencia matemática (Math-ECI) ha tenido una brecha persistente. Los modelos Opus 4.6 y 4.7, lanzados recientemente, han reducido la diferencia entre las puntuaciones en matemáticas y en capacidad general a menos de 1 punto, cerrando así la brecha anterior. El mecanismo de cálculo del ECI compara el rendimiento relativo entre los principales modelos, reflejando directamente la dificultad media de las tareas específicas para la IA, en lugar de la dificultad para los humanos. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
ReorgPanicButton
· hace3h
Math-ECI igualar significa que en cualquier escenario se puede luchar, ya no solo una herramienta para programadores
Ver originalResponder0
Half-SectionedSucculent
· hace5h
El índice de dificultad relativa es más interesante que la puntuación absoluta, ya que refleja la reducción de la diferencia real entre los modelos.
Ver originalResponder0
GateUser-c3de680b
· hace6h
Opus 4.6/4.7 Esta ronda de refuerzo de debilidades es muy sólida, el código fuerte en matemáticas también ha mejorado, la versatilidad es realmente la primera línea.
Ver originalResponder0
GateUser-5578154d
· hace7h
Claude finalmente ha empezado a entender las matemáticas
Ver originalResponder0
BridgeHopster
· hace7h
La diferencia en un minuto, redondeada, significa que no hay debilidades
Ver originalResponder0
SudoSage
· hace7h
SWE y Math doble alto, esta generación de Opus puede llamarse un competidor versátil
Ver originalResponder0