Le 23 avril, heure locale, OpenAI a officiellement lancé le nouveau modèle phare GPT-5.5, qu’ils positionnent comme « un tout nouveau niveau d’intelligence orienté vers le travail réel », marquant également une étape importante vers une nouvelle façon de travailler avec les ordinateurs.

Ce lancement se concentre principalement sur deux points :

Une percée en termes d’efficacité : pour une latence équivalente, le modèle est plus grand, mais sa vitesse n’a pas ralenti. La fenêtre de contexte de GPT-5.5 atteint 1 million de tokens, mais il ne s’agit pas simplement d’une mise à niveau des capacités de GPT-5.4, plutôt d’une intelligence accrue à latence équivalente grâce à une optimisation de l’efficacité.
Deuxièmement, GPT-5.5 a participé à l’optimisation de son infrastructure de raisonnement lors de l’entraînement. En résumé, l’IA a pour la première fois appris à s’aider elle-même à régler ses paramètres.

Dans le terminal-bench 2.0, qui teste les flux de travail complexes en ligne de commande, GPT-5.5 a obtenu un score de 82,7 %, dépassant Claude Opus 4.7 (69,4 %) de plus de 13 points ; dans le test OSWorld-Verified, qui évalue la capacité de l’IA à manipuler un ordinateur réel de manière autonome, le taux de réussite est de 78,7 %, supérieur à la ligne de base humaine ; dans le test GDPval, qui couvre 44 types de tâches professionnelles, 84,9 % des tâches atteignent ou dépassent le niveau d’un expert du secteur.

Cependant, le prix de GPT-5.5 a également considérablement augmenté.

Le tarif API est de 5 dollars par million de tokens pour l’entrée, 30 dollars pour la sortie, soit le double de GPT-5.4 (2,50 dollars pour l’entrée, 15 dollars pour la sortie), mais l’entreprise insiste sur le fait que le nombre de tokens nécessaires pour accomplir la même tâche a été considérablement réduit, ce qui pourrait ne pas entraîner une augmentation significative des coûts globaux. L’API GPT-5.5 Pro est tarifée à 30 dollars par million de tokens pour l’entrée, 180 dollars pour la sortie. Le traitement en lot et la tarification flexible bénéficient d’une réduction de moitié, avec une priorité de traitement 2,5 fois supérieure au tarif standard.

Dans ChatGPT, GPT-5.5 est lancé sous la forme « GPT-5.5 Thinking », remplaçant progressivement les versions précédentes.

Une nouvelle petite fonctionnalité est : avant de commencer à réfléchir, le modèle fournit un résumé de sa démarche, permettant à l’utilisateur d’intervenir à tout moment pour ajuster la direction.

En résumé, la signification de GPT-5.5 : les modèles précédents étaient une collection de capacités, GPT-5.5 ressemble davantage à un système de travail capable de planifier, vérifier et faire avancer le travail de façon continue.

84,9 % des tâches, au niveau d’un professionnel

Figure : Comparaison entre GPT-5.5 et ses concurrents dans les tests de référence clés Terminal-Bench 2.0, GDPval, OSWorld-Verified

Commençons par évaluer la performance des modèles dans des scénarios professionnels réels. OpenAI a utilisé un benchmark appelé « GDPval », qui demande au modèle d’accomplir une série complète de tâches professionnelles. Le test couvre 44 scénarios, incluant la modélisation financière, l’analyse juridique, le rapport en science des données, la planification opérationnelle, etc.

Les résultats montrent que : GPT-5.5 atteint ou dépasse le niveau d’un professionnel dans 84,9 % des tâches. En comparaison, GPT-5.4 est à 83,0 %, Claude Opus 4.7 à 80,3 %, et Gemini 3.1 Pro à seulement 67,3 %.

Cet écart ne se limite pas au score global. Dans la modélisation de feuilles de calcul, GPT-5.5 a obtenu 88,5 % lors de tests internes ; pour des tâches de modélisation de niveau banque d’investissement, il reste en tête. Les premiers retours des testeurs sont également cohérents : les réponses de GPT-5.5 Pro sont nettement plus complètes, structurées et pratiques que celles de GPT-5.4 Pro, notamment dans les domaines commercial, juridique, éducatif et en science des données.

Il est facile de devenir insensible aux chiffres, mais cette fois, OpenAI a carrément dévoilé leur propre espace de travail pour vous montrer.

OpenAI indique que plus de 85 % de ses employés utilisent Codex chaque semaine, dans plusieurs départements comme la finance, la communication, le marketing, le produit, la science des données. L’équipe de communication a utilisé cet outil pour analyser six mois de données sur les invitations à des conférences, créant un processus d’évaluation automatique ; l’équipe financière a examiné 24 771 formulaires K-1, totalisant 71 637 pages, achevés deux semaines plus tôt que prévu l’année dernière ; l’équipe marketing utilise l’automatisation pour générer des rapports hebdomadaires, économisant 5 à 10 heures par personne chaque semaine.

Ce n’est plus une démo de laboratoire, mais une routine de travail concrète.

Le modèle de programmation autonome le plus puissant

OpenAI affirme que GPT-5.5 est actuellement leur modèle d’automatisation de programmation le plus avancé.

Sur Terminal-Bench 2.0 (testant des flux de travail complexes en ligne de commande nécessitant planification, itération et coordination d’outils), GPT-5.5 a obtenu 82,7 %, contre 75,1 % pour GPT-5.4, une amélioration de près de 8 points, tout en consommant moins de tokens. Sur SWE-Bench Pro (évaluation de la capacité à résoudre de manière ponctuelle des problèmes réels sur GitHub), GPT-5.5 a obtenu 58,6 %. Lors de l’évaluation interne Expert-SWE (tâches de programmation longues, avec un temps médian d’environ 20 heures pour un humain), GPT-5.5 continue de surpasser GPT-5.4.

Figure : Nuage de points de Terminal-Bench 2.0 et Expert-SWE

Sous l’impulsion de Codex, alimenté par GPT-5.5, il est désormais capable, à partir d’un simple prompt, de réaliser tout le processus de développement, de la génération de code, aux tests fonctionnels, en passant par le débogage visuel.

Une démonstration officielle d’OpenAI montre un exemple où une mission spatiale basée sur des données orbitales réelles de la NASA est construite, avec une interaction 3D, une simulation gravitationnelle précise ; un détecteur sismique connecté à une source de données en temps réel, avec visualisation, prouvant que le modèle peut appeler des API externes, traiter des données dynamiques et rendre en temps réel.

Concernant les retours d’utilisation : Dan Shipper, fondateur et CEO de Every, raconte une expérience : il avait rencontré un bug après le lancement, qu’il n’avait pas réussi à corriger en plusieurs jours. Finalement, il a demandé à un ingénieur de son équipe de tout réécrire. Après la sortie de GPT-5.5, il a fait une expérience : remettre le modèle dans l’état où le bug n’était pas encore corrigé, pour voir s’il pouvait lui-même proposer une solution identique à celle de l’ingénieur. GPT-5.4 n’a pas réussi, GPT-5.5 a réussi. Il commente : « C’est le premier modèle de programmation que j’ai utilisé qui a une clarté conceptuelle vraiment remarquable. »

Un ingénieur de Nvidia a commenté plus franchement : « Perdre l’accès à GPT-5.5, c’est comme une amputation. »

Michael Truell, co-fondateur et CEO de Cursor, ajoute : GPT-5.5 est plus intelligent et plus résilient que GPT-5.4, capable de persister plus longtemps dans des tâches longues et complexes sans s’arrêter prématurément — ce qui est précisément ce dont ont besoin les ingénieurs.

Travail cognitif : l’IA peut enfin « utiliser » un ordinateur

Dans le test OSWorld-Verified (évaluation de la capacité du modèle à manipuler un ordinateur réel de façon autonome), GPT-5.5 affiche un taux de réussite de 78,7 %, supérieur à GPT-5.4 (75,0 %) et à Claude Opus 4.7 (78,0 %).

Ce n’est pas une simple analyse d’images ou de captures d’écran, mais une manipulation réelle de l’interface : voir l’écran, cliquer, saisir, basculer entre plusieurs outils, jusqu’à l’accomplissement de la tâche. GPT-5.5 donne la première impression que l’IA peut vraiment co-utiliser un ordinateur avec vous.

Dans le test Tau2-bench pour les workflows de service client télécom, la précision de GPT-5.5 sans ajustement de prompt est de 98,0 %, contre 92,8 % pour GPT-5.4.

Cela signifie que le modèle comprend suffisamment bien l’intention de la tâche pour traiter des dialogues complexes à plusieurs étapes sans nécessiter de prompts soigneusement conçus.

En termes de recherche d’outils, GPT-5.5 obtient 84,4 % dans le test BrowseComp, et la version Pro atteint 90,1 %, montrant une capacité robuste à rechercher et intégrer des informations provenant de plusieurs sources pour des tâches de recherche nécessitant une inférence continue.

Recherche scientifique : aider à découvrir de nouvelles preuves mathématiques

Dans cette annonce, la performance de GPT-5.5 dans le domaine de la recherche est probablement la plus surprenante.

Autrefois, on considérait l’IA en recherche comme un « outil d’assistance » — pour la revue de littérature, la programmation, l’analyse de données. Mais cette fois, son rôle s’est nettement avancé, participant à des étapes plus centrales : raisonnement complexe, voire découverte elle-même.

Sur GeneBench (évaluation de l’analyse de données en génétique et biologie quantitative à plusieurs étapes), GPT-5.5 a obtenu 25,0 %, contre 19,0 % pour GPT-5.4. Ces tâches correspondent à plusieurs jours de travail pour un scientifique, le modèle devant raisonner sur des données potentiellement erronées, gérer des facteurs confondants cachés, et appliquer correctement des méthodes statistiques modernes, souvent sans supervision.

Les courbes du graphique montrent que, à mesure que le nombre de tokens générés augmente, la performance de GPT-5.5 progresse plus vite que celle de GPT-5.4, avec une divergence notable vers 15 000 tokens — ce qui indique qu’en face de longues tâches nécessitant un raisonnement approfondi, GPT-5.5 voit son avantage s’amplifier avec la complexité.

Sur BixBench (benchmark en bio-informatique et analyse de données du monde réel), GPT-5.5, avec 80,5 %, devance GPT-5.4 (74,0 %) et se classe parmi les meilleurs modèles publiés.

Ce qui attire vraiment l’attention, c’est un cas précis : une version interne de GPT-5.5 équipée d’un cadre d’outils personnalisés a aidé à découvrir une nouvelle preuve mathématique concernant le nombre de Ramsey, vérifiée dans l’outil de preuve formelle Lean. Le nombre de Ramsey est un objet central en combinatoire, domaine où les résultats sont rares et très difficiles à obtenir. Il ne s’agit pas simplement d’un code ou d’une explication, mais d’une contribution réelle à une démonstration mathématique.

Dans une application concrète, le professeur Derya Unutmaz, de l’Institut Jackson en immunologie, a utilisé GPT-5.5 Pro pour analyser un jeu de données de 62 échantillons, près de 28 000 gènes, générant un rapport détaillé, extrayant des découvertes clés et des questions de recherche — une tâche qui, selon lui, prendrait habituellement plusieurs mois à une équipe.

Bartosz Naskręcki, professeur assistant en mathématiques à l’Université Adam Mickiewicz de Poznań, a utilisé une simple invite pour que Codex, avec GPT-5.5, construise en 11 minutes une application d’algèbre géométrique, visualisant l’intersection de deux surfaces quadratiques et transformant la courbe en modèle de Weierstrass. Les coefficients d’équation affichés en temps réel peuvent être directement utilisés pour la recherche mathématique ultérieure, tout cela réalisé de façon autonome par le modèle.

Figure : Capture d’écran de l’application d’algèbre géométrique construite par le professeur Naskręcki — visualisation de l’intersection de surfaces quadratiques et calcul en temps réel de l’équation de Weierstrass

Brandon White, co-fondateur de Axiom Bio, a une évaluation plus directe : « Si OpenAI maintient cette dynamique, la découverte de médicaments pourrait changer radicalement d’ici la fin de l’année. »

Efficacité du raisonnement : l’IA s’aide enfin à optimiser ses infrastructures

Un détail souvent négligé dans cette annonce, mais qui pourrait être la avancée technique la plus importante : GPT-5.5 est un modèle plus grand et plus puissant, mais sa latence par token en service réel reste identique à celle de GPT-5.4. Pour maintenir cette latence tout en augmentant la capacité, OpenAI a entièrement repensé leur système d’inférence — et Codex ainsi que GPT-5.5 ont directement participé à cette optimisation.

L’analyse via l’indice d’intelligence Artificial Analysis le montre clairement : sur un graphique en courbe, l’axe horizontal représente le nombre total de tokens générés (échelle logarithmique), l’axe vertical le score d’intelligence globale. La courbe de GPT-5.5 non seulement domine celle de GPT-5.4, Claude Opus 4.7 et Gemini 3.1 Pro Preview en termes de score, mais surtout, elle atteint un niveau comparable avec moins de tokens consommés — une capacité accrue à moindre coût, illustrant parfaitement la notion d’« efficacité améliorée ».

Figure : Graphique en courbe de l’indice d’intelligence Artificial Analysis

Concrètement, le défi était l’équilibrage de charge : auparavant, les requêtes étaient divisées en blocs fixes pour répartir la charge GPU, mais cette division statique n’était pas optimale pour tous les types de trafic. Codex a analysé plusieurs semaines de données de flux en production, et a développé un algorithme heuristique personnalisé, augmentant la vitesse de génération de tokens de plus de 20 %.

GPT-5.5 a été conçu en collaboration avec les systèmes NVIDIA GB200 et GB300 NVL72, pour la conception, l’entraînement et le déploiement coordonnés. En d’autres termes, cette génération de modèles a participé à l’optimisation de leur propre architecture d’inférence — ce n’est pas une métaphore, c’est une amélioration concrète du système par l’IA elle-même.

Cybersécurité : capacités renforcées, contrôle resserré

GPT-5.5 montre une amélioration claire en cybersécurité. Lors du test CyberGym, il a obtenu 81,8 %, contre 79,0 % pour GPT-5.4 et 73,1 % pour Claude Opus 4.7. Lors des défis internes de type « Capture The Flag » (CTF), GPT-5.5 a obtenu 88,1 %, contre 83,7 % pour GPT-5.4.

Figure : Graphique en barres CyberGym et diagramme de points des défis CTF

OpenAI a classé la capacité de GPT-5.5 en cybersécurité et en chimie/bio en tant que « élevé » dans leur cadre de préparation à l’urgence, sans encore atteindre le niveau « critique », mais avec une nette progression par rapport à la génération précédente. Ils admettent aussi que le nouveau classificateur de risques plus strict pourrait « initialement causer quelques désagréments pour certains utilisateurs », et qu’ils continueront à ajuster.

Pour équilibrer la défense et les restrictions d’accès, OpenAI a lancé le programme « Accès fiable en cybersécurité » : les chercheurs en sécurité et défenseurs d’infrastructures critiques éligibles peuvent demander un accès plus souple pour utiliser ces capacités avancées en cybersécurité avec moins de friction.

La logique derrière cela : la diffusion des capacités est une tendance irréversible. La voie la plus réaliste pour la défense est de permettre aux défenseurs d’accéder en premier aux outils les plus puissants, plutôt que de tenter de limiter leur diffusion.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
156.39K Popularité
#
CryptoMarketSeesVolatility
222.63K Popularité
#
IsraelStrikesIranBTCPlunges
31.65K Popularité
#
rsETHAttackUpdate
68.37K Popularité
#
US-IranTalksStall
176.02K Popularité

Épingler

Une lecture complète de GPT-5.5 : À partir d'aujourd'hui, OpenAI ne "vend" plus de jetons

84,9 % des tâches, au niveau d’un professionnel

Le modèle de programmation autonome le plus puissant

Travail cognitif : l’IA peut enfin « utiliser » un ordinateur

Recherche scientifique : aider à découvrir de nouvelles preuves mathématiques

Efficacité du raisonnement : l’IA s’aide enfin à optimiser ses infrastructures

Cybersécurité : capacités renforcées, contrôle resserré

Sujets populaires

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Épingler