SemiAnalysis évaluation horizontale montre : GPT-5.5 revient pour la première fois en six mois à l'avant-garde, Claude responsable de la planification de nouveaux projets, Codex responsable de la correction intensive de raisonnement ; Claude a reproduit la disposition mais avec beaucoup de fausses données, les données de Codex sont plus précises. La référence a été modifiée en Expert-SWE, GPT-5.5 est en retard par rapport à Opus 4.7 sur cette référence, Opus 4.7 avec un nouveau tokenizer augmente jusqu'à 35 % la quantité de tokens. DeepSeek V4 suit de près l'avant-garde mais n'est pas en tête, la rédaction en chinois reste supérieure à celle des concurrents. Le prix doit être mesuré par le coût par tâche, le prix unitaire de GPT-5.5 est deux fois celui de GPT-5.4, mais le coût réel dépend du nombre de tokens utilisés. Le rapport entrée-sortie de Codex est d'environ 80:1, celui de Claude Code est d'environ 100:1.

BlockBeatNews

2026-04-27 05:22:31

Création du résumé en cours

Selon le suivi Beating, l’institut d’analyse des semi-conducteurs et de l’IA SemiAnalysis a publié une évaluation comparative des assistants de programmation, couvrant GPT-5.5, Opus 4.7 et DeepSeek V4.
Conclusion principale : GPT-5.5 est le premier modèle de programmation à revenir à l’avant-garde chez OpenAI en six mois, SemiAnalysis constate que ses ingénieurs commencent à alterner entre Codex et Claude Code, alors qu’auparavant presque tous utilisaient uniquement Claude.
GPT-5.5 est basé sur une nouvelle pré-formation nommée « Spud », et constitue la première expansion de l’échelle de pré-formation d’OpenAI après GPT-4.5.

Lors des tests, une division du travail s’est formée : Claude s’occupe de la planification et de la mise en place initiale de nouveaux projets, tandis que Codex se concentre sur la correction de bugs nécessitant une forte capacité de raisonnement.
Codex est meilleur en compréhension des structures de données et en raisonnement logique, mais moins apte à inférer les intentions floues des utilisateurs.
Pour une même tâche sur un tableau de bord, Claude a automatiquement reproduit la mise en page de la page de référence mais avec de nombreuses données inventées, tandis que Codex a sauté la mise en page mais avec des données beaucoup plus précises.

L’article révèle un détail opérationnel d’un benchmark : en février cette année, OpenAI a publié un blog appelant l’industrie à adopter SWE-bench Pro comme nouvelle norme pour les benchmarks de programmation, mais l’annonce de GPT-5.5 a utilisé un nouveau benchmark nommé « Expert-SWE ».
La raison se trouve dans une petite note en bas de l’annonce : GPT-5.5 a été surpassé par Opus 4.7 sur SWE-bench Pro, et est bien en dessous de Mythos (77,8%) encore non publié d’Anthropic.

Concernant Opus 4.7, Anthropic a publié une analyse post-mortem une semaine après le lancement, admettant que Claude Code avait trois bugs entre mars et avril, durant plusieurs semaines, affectant presque tous les utilisateurs.
Plusieurs ingénieurs avaient déjà signalé une baisse de performance de la version 4.6, mais cela avait été considéré comme une perception subjective.
De plus, le nouveau tokenizer de 4.7 entraîne une augmentation de la consommation de tokens pouvant atteindre 35 %, ce que Anthropic reconnaît, ce qui équivaut à une hausse de prix implicite.

DeepSeek V4 est considéré comme « suivant de près l’avant-garde mais non en tête », ce qui en fait la solution de remplacement la moins coûteuse pour un modèle fermé.
L’article indique également que « Claude reste supérieur à DeepSeek V4 Pro dans les tâches de rédaction en chinois à haute difficulté », et commente « Claude a gagné en utilisant la langue de l’adversaire contre le modèle chinois ».

L’article propose un concept clé : la mesure du prix d’un modèle devrait se faire en « coût par tâche » plutôt qu’en « coût par token ».
Le prix unitaire de GPT-5.5 est le double de celui de GPT-5.4 (5 dollars d’entrée, 30 dollars de sortie / million de tokens), mais il accomplit la même tâche avec moins de tokens, ce qui ne rend pas forcément son coût réel plus élevé.
SemiAnalysis indique que, dans une première analyse, le ratio d’entrée/sortie de Codex est de 80:1, inférieur à celui de Claude Code, qui est de 100:1.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
280.12K Popularité
#
比特币Breaks79K
11.68M Popularité
#
IsraelStrikesIranBTCPlunges
34.28K Popularité
#
CryptoMarketsRiseBroadly
88.58K Popularité
#
WHCADinnerShootingIncident
15.02K Popularité

Épingler

SemiAnalysis testé : GPT-5.5 revient à la pointe, mais OpenAI a discrètement dissimulé une performance surpassée par Opus

Sujets populaires

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Épingler