2158 caractères d'instructions ultra-simplifiées pour susciter un raisonnement approfondi, cette conception est intéressante — ce n'est pas une pile d'ingénierie de prompts, mais une observation des véritables capacités du modèle. Claude-opus-4.7 et GPT-5.4 sont presque à égalité, GPT-5.5 marque une différence, le bénéfice des itérations de version est toujours là.

Voir l'original
CoinNetwork
Datacurve agent intelligent open source DeepSWE, code reference reaches five times that of SWE-Bench
Datacurve annonce l'ouverture du code de DeepSWE, un agent de programmation intelligent basé sur un benchmark, pour évaluer la capacité de programmation autonome des grands modèles.
Le benchmark comprend 113 tâches, couvrant cinq langages : TypeScript, Go, Python, JavaScript, Rust, avec en moyenne 668 lignes de solutions de référence.
Les instructions d'incitation font en moyenne 2158 caractères, mettant en avant une réflexion approfondie sous des instructions extrêmement simples.
Les tests utilisent le cadre open source Mini-SWE-Agent, garantissant l'objectivité.
Le taux de réussite avec GPT-5.5 est de 70 %, celui de GPT-5.4 et Claude-opus-4.7 est de 56 % et 54 %.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé