2158 caracteres de instrucciones minimalistas que generan un razonamiento profundo, este diseño es interesante — no es solo apilar ingeniería de indicaciones, sino evaluar la verdadera capacidad del modelo. Claude-opus-4.7 y GPT-5.4 están casi igualados, GPT-5.5 marca la diferencia, la bonificación de las iteraciones de versiones aún está presente.

Ver original
CoinNetwork
Datacurve agente inteligente de código abierto DeepSWE, cantidad de código de referencia alcanza cinco veces SWE-Bench
Datacurve anuncia la apertura del código del estándar de inteligencia artificial DeepSWE, que evalúa la capacidad de programación autónoma de grandes modelos.
El estándar incluye 113 tareas, cubriendo cinco lenguajes: TypeScript, Go, Python, JavaScript y Rust, con un promedio de 668 líneas de solución de referencia.
Las instrucciones de提示 tienen un promedio de 2158 caracteres, enfatizando el razonamiento profundo bajo instrucciones extremadamente simples.
Las pruebas utilizan el marco de código abierto Mini-SWE-Agent para garantizar la objetividad.
La tasa de éxito de GPT-5.5 es del 70%, mientras que GPT-5.4 y Claude-opus-4.7 alcanzan el 56% y el 54%, respectivamente.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado