Zhipu GLM-5.2 encabeza DeepSWE como la primera fuente abierta: resuelve el 44% de tareas de desarrollo complejas, superando a los modelos propietarios cerrados

robot
Generación de resúmenes en curso
Según la monitorización de Beating, el modelo de código abierto de AI de Zhipu, GLM-5.2, ha sido oficialmente incorporado en el estándar de ingeniería de software a largo plazo DeepSWE. Bajo el modo de máxima capacidad de pensamiento, la tasa de éxito en tareas de desarrollo complejas alcanza el 44%, ubicándose en primer lugar entre los modelos de código abierto. En comparación con Kimi K2.7 Code, que también figuraba en la lista, la tasa de éxito es 13 puntos porcentuales más alta.

El costo promedio por tarea resuelta con GLM-5.2 es de 3.92 dólares, ligeramente superior a los 2.82 dólares de Kimi K2.7 Code, pero su tasa de éxito supera el rendimiento de varios modelos principales de código cerrado en configuraciones específicas de pensamiento, incluyendo Claude Sonnet 4.6 [high] (30%), Gemini 3.5 Flash [medium] (37%), y Claude Opus 4.8 [low] (41%).

La evaluación, diseñada por la parte que la inicia, Datacurve, utiliza el estándar DeepSWE para probar específicamente la capacidad de los agentes de AI para resolver tareas largas. La prueba incluye 113 problemas reales de programación, cubriendo 5 lenguajes. A diferencia de las pruebas tradicionales que solo modifican una parte del código, DeepSWE requiere que la AI colabore en la modificación de múltiples archivos, con una media de más de 600 líneas de código reparadas. La evaluación se realiza en contenedores aislados, limitando estrictamente los recursos de CPU y memoria.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado