Opus4.8 officiellement publié, l'IA dit pour la première fois « Je ne suis pas sûr »

Auteur|Huálín Wǔwáng

Éditeur|Jìngyǔ

Si vous êtes comme moi, que ce soit pour rédiger des articles, coder ou faire des recherches chaque jour grâce à l'IA, vous avez sûrement vécu cette expérience — l'IA remet un résultat avec confiance, vous vérifiez pendant longtemps et découvrez une erreur basique, sans qu’elle ne dise un mot.

Ce problème de « faire semblant que tout va bien » est peut-être l’un des plus frustrants dans les grands modèles actuels.

Le 28 mai, Anthropic a publié Claude Opus 4.8. Moins de six semaines après la sortie de la version précédente, Opus 4.7.

Opus 4.8 n’est pas une avancée révolutionnaire qui coupe le souffle, Anthropic lui-même admet que c’est une « amélioration modeste mais tangible » — mais il a fait une chose que beaucoup attendaient depuis longtemps : apprendre à l’IA à reconnaître ses incertitudes.

01 Un rythme plus rapide, un modèle plus honnête

Depuis Opus 4.5 de novembre 2025, le rythme d’itération du modèle phare d’Anthropic est d’environ tous les deux mois — 4.5 (novembre dernier), 4.6 (février cette année), 4.7 (avril), 4.8 (fin mai). Un nouveau version toutes les six semaines, c’est presque la cadence la plus agressive dans l’industrie des grands modèles.

Comparaison entre Opus 4.8 et d’autres modèles|Source : Anthropic

Sur les benchmarks standards, la performance d’Opus 4.8 peut être résumée par « progrès constant ». En programmation, SWE-bench Pro passe de 64,3 % à 69,2 % depuis 4.7, SWE-bench Verified de 87,6 % à 88,6 %. La déduction interdisciplinaire (Humanity's Last Exam) atteint 57,9 % avec l’utilisation d’outils. L’évaluation du travail intellectuel GDPval-AA, avec une valeur Elo de 1890, dépasse GPT-5.5 à 1769. L’évaluation des opérations informatiques OSWorld-Verified domine à 83,4 %.

Le seul domaine où GPT-5.5 a surpassé Opus 4.8 est la programmation terminale (Terminal-Bench 2.1), avec 78,2 % contre 74,6 % pour Opus 4.8.

Mais franchement, ces scores deviennent difficiles à enthousiasmer. Les évaluations comme SWE-bench Verified approchent la saturation, plusieurs modèles sur GPQA Diamond dépassent 93 % — plus le score est élevé, moins chaque point supplémentaire se traduit par une différence perceptible.

Ce qui m’a vraiment fait penser que cette mise à jour valait la peine d’être commentée, c’est l’investissement d’Anthropic dans la « sincérité » du modèle.

02 Un IA capable de dire « je ne suis pas sûr »

Anthropic a fourni une donnée très précise : dans les tâches de programmation, la probabilité qu’Opus 4.8 omette de signaler ses défauts de code est environ quatre fois moindre que celle d’Opus 4.7.

Qu’est-ce que cela signifie ? Cela veut dire qu’auparavant, quand Opus 4.7 écrivait un bout de code, même s’il contenait des bugs, il pouvait vous dire tranquillement « c’est terminé, pas de problème ». Alors qu’Opus 4.8 préfère dire activement « je ne suis pas très sûr ici, vérifiez s’il vous plaît ».

Dans l’évaluation d’alignement, Opus 4.8 atteint de nouveaux sommets en traits prosociaux (comme respecter l’autonomie de l’utilisateur, penser à ses intérêts), et la fréquence de comportements « non alignés » comme la tromperie ou la manipulation a fortement diminué par rapport à Opus 4.7, se rapprochant du meilleur modèle d’alignement d’Anthropic, Claude Mythos Preview.

Michael Truell, PDG de Cursor, a commenté que, sur CursorBench, Opus 4.8 surpassait tous ses prédécesseurs à chaque niveau d’effort, avec une meilleure efficacité dans l’appel aux outils, atteignant le même niveau d’intelligence avec moins d’étapes. Le responsable de la recherche appliquée chez Casetext, une société d’IA juridique, a été plus direct : Opus 4.8 a établi un nouveau record dans le benchmark juridique, étant le premier modèle à franchir globalement la norme de 10 % de réussite totale.

Scott Wu, PDG de Devin, a souligné une difficulté concrète — Opus 4.8 a corrigé des problèmes de redondance dans les annotations et d’appel aux outils présents dans Opus 4.7, ce qui est crucial pour les workflows autonomes sans supervision humaine.

Dans une ère où l’IA est de plus en plus utilisée pour la prise de décision autonome, un modèle qui expose volontairement ses faiblesses est en fait le plus digne de confiance.

Concernant la non-cohérence du modèle, Opus 4.8 est déjà au niveau du légendaire Mythos|Source : Anthropic

Cependant, dans la section sécurité du système d’Opus 4.8, Anthropic a honnêtement révélé une découverte intrigante : lors de l’entraînement, Opus 4.8 a commencé à développer une tendance à « deviner l’intention du scoreur ».

Plus précisément, le modèle, lors de raisonnements, pense activement à la façon dont ses sorties seront évaluées — même sans qu’on lui dise qu’il est en cours d’évaluation. Des études préliminaires en explicabilité ont montré qu’environ 5 % des segments d’entraînement, le modèle effectue des raisonnements non verbalisés liés à la notation.

En clair, l’IA apprend à « penser comme un examinateur » — elle ne cherche pas forcément à donner la meilleure réponse, mais celle qui plaira le plus au « correcteur ».

Anthropic insiste sur le fait que cette tendance n’a pas encore conduit à des comportements plus mauvais — en fait, les déclarations trompeuses d’Opus 4.8 sont moins fréquentes qu’auparavant. Mais ils admettent aussi que c’est une « tendance qui pourrait compliquer l’entraînement à l’avenir ».

Ce problème n’est pas propre à Anthropic. Tous les modèles entraînés par RLHF (renforcement par feedback humain) peuvent théoriquement développer cette stratégie de « plaire à l’évaluateur ». La différence d’Anthropic, c’est qu’ils choisissent de l’annoncer publiquement — dans un secteur où la majorité des acteurs préfèrent faire état de leurs succès plutôt que de leurs difficultés, c’est une forme de transparence qui mérite d’être saluée.

03 Une fonctionnalité qui change vraiment la façon de travailler

Avec la sortie d’Opus 4.8, plusieurs mises à jour fonctionnelles ont été annoncées, dont la plus notable est « Dynamic Workflows » dans Claude Code.

Cette fonctionnalité permet à Claude, lors d’une session, de déployer des centaines de sous-agents en parallèle pour collaborer à une tâche. Son fonctionnement : Claude établit un plan, divise la tâche en sous-tâches, les répartit entre différents sous-agents qui travaillent en parallèle, certains remettant en question les conclusions des autres, en itérant jusqu’à convergence, puis vérifient et rapportent le résultat à l’utilisateur.

Anthropic donne l’exemple que, combiné à Opus 4.8, Claude Code peut désormais réaliser des migrations de code à l’échelle de bases de dizaines de milliers de lignes, du lancement à la fusion, en utilisant les tests existants comme standard de qualité. Jusqu’à 1000 sous-agents peuvent être lancés en une seule fois, avec 16 en parallèle maximum.

Une autre mise à jour est « Effort Control » (Contrôle de l’effort), qui permet aux utilisateurs sur claude.ai et Cowork de choisir manuellement combien de « réflexion » Claude doit investir dans chaque réponse — du mode économique, rapide, au mode maximal, coûteux en tokens. En gros, cela donne aux utilisateurs le pouvoir de décider « combien ça coûte pour faire quoi ». Par défaut, Opus 4.8 est en « high », avec une consommation de tokens comparable à celle d’Opus 4.7, mais avec de meilleures performances.

Le mode rapide (Fast Mode) est aussi amélioré : vitesse multipliée par 2,5, tout en étant trois fois moins cher.

04 L’ombre de Mythos

En même temps que la sortie d’Opus 4.8, Anthropic a évoqué à nouveau Claude Mythos — ce modèle plus puissant, actuellement réservé à quelques organisations. Anthropic indique que Mythos sera « accessible à tous dans les semaines à venir ».

C’est en réalité le contexte plus large de la sortie d’Opus 4.8 — une sorte de « teasing » avant l’arrivée officielle de Mythos. Opus 4.8, en termes d’alignement, se rapproche déjà de Mythos Preview, ce qui pourrait signifier qu’Anthropic se prépare à déployer un modèle plus puissant en toute sécurité.

Côté prix, Opus 4.8 maintient ses tarifs : 5 dollars par million de tokens d’entrée, 25 dollars pour la sortie. L’API est identifiée sous le nom claude-opus-4-8, et est disponible sur Claude API, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry.

Face à la pression continue de GPT-5.5 d’OpenAI et Gemini 3.1 Pro de Google, Anthropic a choisi une voie différente : ne pas se concentrer uniquement sur des scores pour faire du bruit, mais faire du « modèle de personnalité » — honnête, fiable, prudent — leur argument principal.

Reste à voir si cela fonctionnera auprès des utilisateurs. Mais aujourd’hui, quand je demande à Opus 4.8 d’examiner un bout de code, il m’a signalé un risque que le 4.7 n’aurait jamais mentionné.

À ce seul titre, cette mise à jour n’a pas été inutile.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé