Ramp publica el benchmark privado SWE-Bench: Claude Fable 5 gana con un 87.5% de tasa de victoria

robot
Generación de resúmenes en curso
La noticia de CoinWorld, Ramp ha lanzado el estándar de prueba privada Ramp SWE-Bench para agentes inteligentes de codificación AI de vanguardia.
Este estándar incluye 80 tareas de desarrollo backend provenientes del entorno de producción real de Ramp, con el objetivo de abordar los problemas de filtración de datos y saturación de métricas causados por conjuntos de datos de evaluación públicos debido a la preentrenamiento del modelo.
Según los resultados de evaluación comparativa de 14 modelos publicados, Claude Fable 5 de Anthropic, lanzado recientemente, ocupa el primer lugar con una tasa de resolución del 87.5%,
Claude Opus 4.7 y GPT-5.5 empatan en segundo lugar, con una tasa de resolución del 83.75%.
Los datos de prueba también revelan los compromisos entre precio y rendimiento de diferentes modelos,
El modelo nacional Kimi K2.6 y GLM 5.1 tienen tasas de resolución similares, con 72.5% y 71.25% respectivamente,
pero el costo promedio de Kimi K2.6 es de 0.69 dólares, aproximadamente un 34% más barato que GLM 5.1.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 3
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
VolatilityOfToastingBread
· hace5h
La filtración de datos es realmente un gran problema, las pruebas privadas son las que tienen peso.
Ver originalResponder0
Lemon-FlavoredLiquidation
· hace5h
¿Con este precio, Claude puede lograr estos resultados? ¿Cómo reduce Anthropic sus costos de infraestructura?
Ver originalResponder0
RetroRadioSignal
· hace5h
Kimi tiene una buena relación calidad-precio, con 0.69 dólares, ¿qué más se puede pedir?
Ver originalResponder0
  • Fijado