AA-Bolsa de trabajo publica: Claude Fable 5 gana el campeonato, GLM-5.2 se cuela en el podio

robot
Generación de resúmenes en curso
Noticia de Coinjie.com, AA-Briefcase anunció que Claude Fable 5 ganó en las evaluaciones, mientras que GLM-5.2 se ubicó en el top tres.
El organismo de evaluación Artificial Analysis lanzó el primer estándar de evaluación de conocimientos a largo plazo diseñado específicamente para agentes de modelos grandes, que abarca cuatro escenarios: ciencia de datos, gestión de productos, operaciones bancarias y estrategia en industrias pesadas, desarrollado por expertos de Google, McKinsey y Boston Consulting.
Consta de 91 tareas, con el objetivo de simular flujos de proyectos comerciales reales y complejos.
Los resultados muestran que Claude Fable 5 obtuvo la puntuación global más alta, seguido por Claude Opus 4.8 en segundo lugar y GLM-5.2 en tercero.
Aunque Claude Fable 5 tuvo un rendimiento fuerte, bajo el estricto estándar de perfección en tareas individuales, su tasa de perfección fue solo del 3%.
En modelos de código abierto, GLM-5.2 de Zhipu mostró un rendimiento destacado, con una puntuación global solo 90 puntos por debajo de Claude Opus 4.8, pero con un costo de operación inferior al 25%.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 4
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
MempoolMaggie
· hace6h
Claude Fable 5 ganó pero con una tasa de perfección del 3%, esta cifra es bastante impactante, lo que indica que las tareas a largo plazo siguen siendo de dificultad extrema para la IA.
Ver originalResponder0
SandwichAlertAgent
· hace6h
Opus 4.8 la posición del segundo es un poco incómoda, es caro y aún inestable, Anthropic debe pensar en cómo contar la historia.
Ver originalResponder0
BridgeHopRanger
· hace6h
El GLM-5.2 de código abierto tiene una relación calidad-precio increíble, con una diferencia de puntuación de 90 puntos y un ahorro del 75% en costos, las empresas tendrán que volver a hacer cálculos en sus compras.
Ver originalResponder0
GlassDomeObservatory
· hace6h
91 tareas cubren cuatro industrias, respaldadas por Google y McKinsey, valoro la calidad de este estándar.
Ver originalResponder0
  • Fijado