Zhipu GLM-5.2 en tête de DeepSWE open source : résout 44 % des tâches de développement complexes, surpassant les modèles propriétaires fermés

robot
Création du résumé en cours
Selon la surveillance Beating, le modèle open source d'IA de Zhipu, GLM-5.2, a officiellement intégré le benchmark DeepSWE pour l'ingénierie logicielle longue durée.
En mode de réflexion maximale, le taux de réussite pour une tâche complexe atteint 44 %, ce qui le place en première position parmi les modèles open source.
En comparaison avec le Kimi K2.7 Code précédemment classé, le taux de réussite est supérieur de 13 points de pourcentage.

Le coût moyen par tâche résolue par GLM-5.2 est de 3,92 dollars, légèrement supérieur aux 2,82 dollars de Kimi K2.7 Code, mais son taux de réussite dépasse celui de plusieurs modèles propriétaires grand public dans des configurations de réflexion spécifiques, notamment Claude Sonnet 4.6 [high] (30 %), Gemini 3.5 Flash [medium] (37 %), et Claude Opus 4.8 [low] (41 %).

L'évaluation, initiée par Datacurve, a conçu le benchmark DeepSWE pour tester la capacité des intelligences artificielles à résoudre des tâches longues.
Le test comprend 113 problèmes de programmation réels, couvrant 5 langages.
Contrairement aux tests traditionnels qui ne modifient qu'une seule partie du code, DeepSWE exige que l'IA collabore pour modifier plusieurs fichiers, avec une moyenne de plus de 600 lignes de code corrigées.
L'évaluation s'effectue dans un conteneur isolé, avec des ressources CPU et mémoire strictement limitées.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé