Datacurve, cette vague de DeepSWE open source est vraiment solide, couverture en cinq langues, réponse moyenne en 668 lignes avec une profondeur, le cadre Mini-SWE-Agent est également sorti, à l'avenir, la capacité de code des grands modèles pourra être mesurée avec une règle.

Voir l'original
CoinNetwork
Datacurve agent intelligent open source DeepSWE, code reference reaches five times that of SWE-Bench
Datacurve annonce l'ouverture du code de DeepSWE, un agent de programmation intelligent basé sur un benchmark, pour évaluer la capacité de programmation autonome des grands modèles.
Le benchmark comprend 113 tâches, couvrant cinq langages : TypeScript, Go, Python, JavaScript, Rust, avec en moyenne 668 lignes de solutions de référence.
Les instructions d'incitation font en moyenne 2158 caractères, mettant en avant une réflexion approfondie sous des instructions extrêmement simples.
Les tests utilisent le cadre open source Mini-SWE-Agent, garantissant l'objectivité.
Le taux de réussite avec GPT-5.5 est de 70 %, celui de GPT-5.4 et Claude-opus-4.7 est de 56 % et 54 %.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé