SemiAnalysis testé : GPT-5.5 revient à la pointe, mais OpenAI a discrètement dissimulé une performance surpassée par Opus

robot
Création du résumé en cours

Selon le suivi Beating, l’institut d’analyse des semi-conducteurs et de l’IA SemiAnalysis a publié une évaluation comparative des assistants de programmation, couvrant GPT-5.5, Opus 4.7 et DeepSeek V4.
Conclusion principale : GPT-5.5 est le premier modèle de programmation à revenir à l’avant-garde chez OpenAI en six mois, SemiAnalysis constate que ses ingénieurs commencent à alterner entre Codex et Claude Code, alors qu’auparavant presque tous utilisaient uniquement Claude.
GPT-5.5 est basé sur une nouvelle pré-formation nommée « Spud », et constitue la première expansion de l’échelle de pré-formation d’OpenAI après GPT-4.5.

Lors des tests, une division du travail s’est formée : Claude s’occupe de la planification et de la mise en place initiale de nouveaux projets, tandis que Codex se concentre sur la correction de bugs nécessitant une forte capacité de raisonnement.
Codex est meilleur en compréhension des structures de données et en raisonnement logique, mais moins apte à inférer les intentions floues des utilisateurs.
Pour une même tâche sur un tableau de bord, Claude a automatiquement reproduit la mise en page de la page de référence mais avec de nombreuses données inventées, tandis que Codex a sauté la mise en page mais avec des données beaucoup plus précises.

L’article révèle un détail opérationnel d’un benchmark : en février cette année, OpenAI a publié un blog appelant l’industrie à adopter SWE-bench Pro comme nouvelle norme pour les benchmarks de programmation, mais l’annonce de GPT-5.5 a utilisé un nouveau benchmark nommé « Expert-SWE ».
La raison se trouve dans une petite note en bas de l’annonce : GPT-5.5 a été surpassé par Opus 4.7 sur SWE-bench Pro, et est bien en dessous de Mythos (77,8%) encore non publié d’Anthropic.

Concernant Opus 4.7, Anthropic a publié une analyse post-mortem une semaine après le lancement, admettant que Claude Code avait trois bugs entre mars et avril, durant plusieurs semaines, affectant presque tous les utilisateurs.
Plusieurs ingénieurs avaient déjà signalé une baisse de performance de la version 4.6, mais cela avait été considéré comme une perception subjective.
De plus, le nouveau tokenizer de 4.7 entraîne une augmentation de la consommation de tokens pouvant atteindre 35 %, ce que Anthropic reconnaît, ce qui équivaut à une hausse de prix implicite.

DeepSeek V4 est considéré comme « suivant de près l’avant-garde mais non en tête », ce qui en fait la solution de remplacement la moins coûteuse pour un modèle fermé.
L’article indique également que « Claude reste supérieur à DeepSeek V4 Pro dans les tâches de rédaction en chinois à haute difficulté », et commente « Claude a gagné en utilisant la langue de l’adversaire contre le modèle chinois ».

L’article propose un concept clé : la mesure du prix d’un modèle devrait se faire en « coût par tâche » plutôt qu’en « coût par token ».
Le prix unitaire de GPT-5.5 est le double de celui de GPT-5.4 (5 dollars d’entrée, 30 dollars de sortie / million de tokens), mais il accomplit la même tâche avec moins de tokens, ce qui ne rend pas forcément son coût réel plus élevé.
SemiAnalysis indique que, dans une première analyse, le ratio d’entrée/sortie de Codex est de 80:1, inférieur à celui de Claude Code, qui est de 100:1.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler