Datacurve esta ola de DeepSWE de código abierto es bastante sólida, cubre cinco idiomas, con un promedio de 668 líneas en la profundidad de respuesta, y también ha lanzado el marco Mini-SWE-Agent, lo que permitirá medir la capacidad de código de los grandes modelos en el futuro.

Ver original
CoinNetwork
Datacurve agente inteligente de código abierto DeepSWE, cantidad de código de referencia alcanza cinco veces SWE-Bench
Datacurve anuncia la apertura del código del estándar de inteligencia artificial DeepSWE, que evalúa la capacidad de programación autónoma de grandes modelos.
El estándar incluye 113 tareas, cubriendo cinco lenguajes: TypeScript, Go, Python, JavaScript y Rust, con un promedio de 668 líneas de solución de referencia.
Las instrucciones de提示 tienen un promedio de 2158 caracteres, enfatizando el razonamiento profundo bajo instrucciones extremadamente simples.
Las pruebas utilizan el marco de código abierto Mini-SWE-Agent para garantizar la objetividad.
La tasa de éxito de GPT-5.5 es del 70%, mientras que GPT-5.4 y Claude-opus-4.7 alcanzan el 56% y el 54%, respectivamente.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado