La noticia de CoinWorld, el equipo de SWE-bench lanzó el nuevo programa de referencia ProgramBench, evaluando 9 modelos de IA de vanguardia en tareas de reconstrucción de software real, con una tasa de éxito del 0%.


Este estándar fue publicado conjuntamente por el equipo de investigación de IA de Meta, Stanford y Harvard, y la tarea requiere que un agente de IA, solo con un archivo binario compilado y documentación, reconstruya y implemente una base de código completa desde cero para reproducir el comportamiento del programa original.
El estándar incluye 200 tareas, que abarcan desde herramientas CLI pequeñas hasta proyectos grandes, y los resultados de las pruebas muestran que ninguna de las métricas principales de "completamente aprobado" fue alcanzada, con Claude Opus 4.7 liderando en la métrica auxiliar de "casi aprobado" con un 3%, mientras que los demás modelos obtuvieron un 0%.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado