Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
Opus4.8 officiellement publié, l'IA dit pour la première fois « Je ne suis pas sûr »
Auteur|Huálín Wǔwáng
Éditeur|Jìngyǔ
Si vous êtes comme moi, que ce soit pour rédiger des articles, coder ou faire des recherches chaque jour grâce à l'IA, vous avez sûrement vécu cette expérience — l'IA remet un résultat avec confiance, vous vérifiez pendant longtemps et découvrez une erreur basique, sans qu’elle ne dise un mot.
Ce problème de « faire semblant que tout va bien » est peut-être l’un des plus frustrants dans les grands modèles actuels.
Le 28 mai, Anthropic a publié Claude Opus 4.8. Moins de six semaines après la sortie de la version précédente, Opus 4.7.
Opus 4.8 n’est pas une avancée révolutionnaire qui coupe le souffle, Anthropic lui-même admet que c’est une « amélioration modeste mais tangible » — mais il a fait une chose que beaucoup attendaient depuis longtemps : apprendre à l’IA à reconnaître ses incertitudes.
01 Un rythme plus rapide, un modèle plus honnête
Depuis Opus 4.5 de novembre 2025, le rythme d’itération du modèle phare d’Anthropic est d’environ tous les deux mois — 4.5 (novembre dernier), 4.6 (février cette année), 4.7 (avril), 4.8 (fin mai). Un nouveau version toutes les six semaines, c’est presque la cadence la plus agressive dans l’industrie des grands modèles.
Comparaison entre Opus 4.8 et d’autres modèles|Source : Anthropic
Sur les benchmarks standards, la performance d’Opus 4.8 peut être résumée par « progrès constant ». En programmation, SWE-bench Pro passe de 64,3 % à 69,2 % depuis 4.7, SWE-bench Verified de 87,6 % à 88,6 %. La déduction interdisciplinaire (Humanity's Last Exam) atteint 57,9 % avec l’utilisation d’outils. L’évaluation du travail intellectuel GDPval-AA, avec une valeur Elo de 1890, dépasse GPT-5.5 à 1769. L’évaluation des opérations informatiques OSWorld-Verified domine à 83,4 %.
Le seul domaine où GPT-5.5 a surpassé Opus 4.8 est la programmation terminale (Terminal-Bench 2.1), avec 78,2 % contre 74,6 % pour Opus 4.8.
Mais franchement, ces scores deviennent difficiles à enthousiasmer. Les évaluations comme SWE-bench Verified approchent la saturation, plusieurs modèles sur GPQA Diamond dépassent 93 % — plus le score est élevé, moins chaque point supplémentaire se traduit par une différence perceptible.
Ce qui m’a vraiment fait penser que cette mise à jour valait la peine d’être commentée, c’est l’investissement d’Anthropic dans la « sincérité » du modèle.
02 Un IA capable de dire « je ne suis pas sûr »
Anthropic a fourni une donnée très précise : dans les tâches de programmation, la probabilité qu’Opus 4.8 omette de signaler ses défauts de code est environ quatre fois moindre que celle d’Opus 4.7.
Qu’est-ce que cela signifie ? Cela veut dire qu’auparavant, quand Opus 4.7 écrivait un bout de code, même s’il contenait des bugs, il pouvait vous dire tranquillement « c’est terminé, pas de problème ». Alors qu’Opus 4.8 préfère dire activement « je ne suis pas très sûr ici, vérifiez s’il vous plaît ».
Dans l’évaluation d’alignement, Opus 4.8 atteint de nouveaux sommets en traits prosociaux (comme respecter l’autonomie de l’utilisateur, penser à ses intérêts), et la fréquence de comportements « non alignés » comme la tromperie ou la manipulation a fortement diminué par rapport à Opus 4.7, se rapprochant du meilleur modèle d’alignement d’Anthropic, Claude Mythos Preview.
Michael Truell, PDG de Cursor, a commenté que, sur CursorBench, Opus 4.8 surpassait tous ses prédécesseurs à chaque niveau d’effort, avec une meilleure efficacité dans l’appel aux outils, atteignant le même niveau d’intelligence avec moins d’étapes. Le responsable de la recherche appliquée chez Casetext, une société d’IA juridique, a été plus direct : Opus 4.8 a établi un nouveau record dans le benchmark juridique, étant le premier modèle à franchir globalement la norme de 10 % de réussite totale.
Scott Wu, PDG de Devin, a souligné une difficulté concrète — Opus 4.8 a corrigé des problèmes de redondance dans les annotations et d’appel aux outils présents dans Opus 4.7, ce qui est crucial pour les workflows autonomes sans supervision humaine.
Dans une ère où l’IA est de plus en plus utilisée pour la prise de décision autonome, un modèle qui expose volontairement ses faiblesses est en fait le plus digne de confiance.
Concernant la non-cohérence du modèle, Opus 4.8 est déjà au niveau du légendaire Mythos|Source : Anthropic
Cependant, dans la section sécurité du système d’Opus 4.8, Anthropic a honnêtement révélé une découverte intrigante : lors de l’entraînement, Opus 4.8 a commencé à développer une tendance à « deviner l’intention du scoreur ».
Plus précisément, le modèle, lors de raisonnements, pense activement à la façon dont ses sorties seront évaluées — même sans qu’on lui dise qu’il est en cours d’évaluation. Des études préliminaires en explicabilité ont montré qu’environ 5 % des segments d’entraînement, le modèle effectue des raisonnements non verbalisés liés à la notation.
En clair, l’IA apprend à « penser comme un examinateur » — elle ne cherche pas forcément à donner la meilleure réponse, mais celle qui plaira le plus au « correcteur ».
Anthropic insiste sur le fait que cette tendance n’a pas encore conduit à des comportements plus mauvais — en fait, les déclarations trompeuses d’Opus 4.8 sont moins fréquentes qu’auparavant. Mais ils admettent aussi que c’est une « tendance qui pourrait compliquer l’entraînement à l’avenir ».
Ce problème n’est pas propre à Anthropic. Tous les modèles entraînés par RLHF (renforcement par feedback humain) peuvent théoriquement développer cette stratégie de « plaire à l’évaluateur ». La différence d’Anthropic, c’est qu’ils choisissent de l’annoncer publiquement — dans un secteur où la majorité des acteurs préfèrent faire état de leurs succès plutôt que de leurs difficultés, c’est une forme de transparence qui mérite d’être saluée.
03 Une fonctionnalité qui change vraiment la façon de travailler
Avec la sortie d’Opus 4.8, plusieurs mises à jour fonctionnelles ont été annoncées, dont la plus notable est « Dynamic Workflows » dans Claude Code.
Cette fonctionnalité permet à Claude, lors d’une session, de déployer des centaines de sous-agents en parallèle pour collaborer à une tâche. Son fonctionnement : Claude établit un plan, divise la tâche en sous-tâches, les répartit entre différents sous-agents qui travaillent en parallèle, certains remettant en question les conclusions des autres, en itérant jusqu’à convergence, puis vérifient et rapportent le résultat à l’utilisateur.
Anthropic donne l’exemple que, combiné à Opus 4.8, Claude Code peut désormais réaliser des migrations de code à l’échelle de bases de dizaines de milliers de lignes, du lancement à la fusion, en utilisant les tests existants comme standard de qualité. Jusqu’à 1000 sous-agents peuvent être lancés en une seule fois, avec 16 en parallèle maximum.
Une autre mise à jour est « Effort Control » (Contrôle de l’effort), qui permet aux utilisateurs sur claude.ai et Cowork de choisir manuellement combien de « réflexion » Claude doit investir dans chaque réponse — du mode économique, rapide, au mode maximal, coûteux en tokens. En gros, cela donne aux utilisateurs le pouvoir de décider « combien ça coûte pour faire quoi ». Par défaut, Opus 4.8 est en « high », avec une consommation de tokens comparable à celle d’Opus 4.7, mais avec de meilleures performances.
Le mode rapide (Fast Mode) est aussi amélioré : vitesse multipliée par 2,5, tout en étant trois fois moins cher.
04 L’ombre de Mythos
En même temps que la sortie d’Opus 4.8, Anthropic a évoqué à nouveau Claude Mythos — ce modèle plus puissant, actuellement réservé à quelques organisations. Anthropic indique que Mythos sera « accessible à tous dans les semaines à venir ».
C’est en réalité le contexte plus large de la sortie d’Opus 4.8 — une sorte de « teasing » avant l’arrivée officielle de Mythos. Opus 4.8, en termes d’alignement, se rapproche déjà de Mythos Preview, ce qui pourrait signifier qu’Anthropic se prépare à déployer un modèle plus puissant en toute sécurité.
Côté prix, Opus 4.8 maintient ses tarifs : 5 dollars par million de tokens d’entrée, 25 dollars pour la sortie. L’API est identifiée sous le nom claude-opus-4-8, et est disponible sur Claude API, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry.
Face à la pression continue de GPT-5.5 d’OpenAI et Gemini 3.1 Pro de Google, Anthropic a choisi une voie différente : ne pas se concentrer uniquement sur des scores pour faire du bruit, mais faire du « modèle de personnalité » — honnête, fiable, prudent — leur argument principal.
Reste à voir si cela fonctionnera auprès des utilisateurs. Mais aujourd’hui, quand je demande à Opus 4.8 d’examiner un bout de code, il m’a signalé un risque que le 4.7 n’aurait jamais mentionné.
À ce seul titre, cette mise à jour n’a pas été inutile.