Claude Sonnet 5 en ligne : Anthropic annonce que de nombreuses performances se rapprochent de l'Opus, mais les frais d'API sont 60 % moins chers.

Anthropic lance officiellement Claude Sonnet 5. Les scores publiés par l'entreprise montrent que ses indicateurs s'approchent de ceux du modèle phare Opus 4.8, avec un tarif API standard de 3 $ / 15 $ par million de tokens en entrée/sortie, soit environ 60 % moins cher que l'Opus. (Contexte précédent : La Californie annonce un partenariat avec Anthropic : les agences de l'État peuvent utiliser Claude à moitié prix) (Complément de contexte : La fin de l'ère des prix élevés de l'IA approche-t-elle ? Cinq raisons structurelles expliquant pourquoi les tokens vont nécessairement baisser)

60 % moins cher, performances légèrement inférieures, cela ressemble à une histoire commerciale parfaite, mais est-ce vraiment le cas ? Il y a peu de temps, Anthropic a officiellement publié Claude Sonnet 5 et l'a défini comme modèle par défaut pour les utilisateurs Free et Pro. Côté tarifs, le prix standard de l'API est de 3 $ par million de tokens en entrée et 15 $ en sortie (période promotionnelle jusqu'au 31 août à 2 $/10 $), soit environ 60 % moins cher que le modèle phare Opus 4.8 à 5 $/25 $.

Scores approchant ceux du modèle phare

Voici les chiffres publiés par Anthropic, mais tous les scores proviennent de l'auto-évaluation officielle et n'ont pas encore été vérifiés indépendamment par un tiers :

Sur SWE-bench Pro (capacité de code agentique), Sonnet 5 obtient 63.2 %, le précédent Sonnet 4.6 était à 58.1 %, le modèle phare Opus 4.8 est à 69.2 %.

Terminal-Bench 2.1 (opérations terminal) : Sonnet 5 80.4 %, Opus 4.8 82.7 %.

Humanity’s Last Exam (raisonnement multidisciplinaire) : Sonnet 5 avec utilisation d'outils atteint 57.4 %, presque égalant les 57.9 % d'Opus 4.8.

GDPval-AA v2 (capacité de travail intellectuel) : Sonnet 5 obtient 1,618, dépassant ainsi les 1,615 d'Opus 4.8.

Les capacités d'opération informatique progressent également : dans l'évaluation OSWorld-Verified, Sonnet 5 obtient 81.2 %, contre 78.5 % pour la génération précédente. Le scénario central de ce test de référence consiste à faire manipuler physiquement le bureau par le modèle, en effectuant des captures d'écran, des glisser-déposer, des transferts de données entre applications dans un environnement système d'exploitation réel, se rapprochant de la difficulté des flux de travail automatisés réels.

De plus, Sonnet 5 prend en charge une fenêtre de contexte allant jusqu'à 1 million de tokens, avec une sortie maximale de 128k tokens. Cela signifie que l'on peut y introduire l'équivalent textuel d'environ 750 romans, ou un lot complet de fichiers de contrats d'une grande entreprise, permettant au modèle d'effectuer des comparaisons inter-fichiers, des résumés et des prises de décision en une seule conversation, sans avoir à traiter par lots. Cette spécification est particulièrement adaptée aux tâches agentiques de longue durée, car le modèle n'a pas besoin d'« oublier » le contexte précédent en cours de route.

La facture ne suit pas nécessairement la « baisse de prix »

Sonnet 5 utilise une version mise à jour du tokenizer. En termes simples, le tokenizer est la manière de découper le texte en tokens. La méthode de découpage change, le nombre de tokens calculé pour un même texte diffère, et la facture change aussi.

Anthropic explique que, avec le nouveau tokenizer, une même entrée peut générer de 1.0 à 1.35 fois le nombre de tokens selon le contenu. L'entreprise affirme que les prix ont été ajustés pour être « globalement neutres en termes de coûts », mais recommande aux utilisateurs à fort trafic d'effectuer leurs propres tests de référence, car la facture pourrait ne pas baisser, voire augmenter.

Côté sécurité, le rapport d'Anthropic indique que Sonnet 5 présente moins de tendances aux hallucinations et à la flatterie que Sonnet 4.6, et une meilleure capacité à refuser les demandes malveillantes. Mais la comparaison en matière de sécurité est relative : Sonnet 5 a toujours un taux d'occurrence de comportements inappropriés plus élevé que le plus puissant Opus 4.8, et aussi plus élevé que la version strictement limitée Claude Mythos Preview.

Dans l'évaluation du développement d'exploits pour Firefox 147 en partenariat avec Mozilla, Sonnet 5 n'a pas produit d'exploit utilisable (0 %), mais le taux de réussite partielle est de 13.2 %, supérieur aux 8.8 % de Sonnet 4.6. Ces deux chiffres sont encore loin des 68.8 % d'Opus 4.8, mais Anthropic a activé par défaut la protection en cybersécurité.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé