Anthropic publie l'analyse postérieure de la réduction de l'intelligence de Claude Code : trois modifications superposées au niveau des produits, pas un problème de modèle

robot
Création du résumé en cours

Selon le suivi Beating, l’équipe d’ingénierie d’Anthropic a publié un article confirmant que la baisse de qualité de Claude Code observée par les utilisateurs depuis plus d’un mois provient de trois modifications indépendantes au niveau des produits, affectant à la fois Claude Code, Claude Agent SDK et Claude Cowork, tandis que l’API et le modèle sous-jacent n’ont pas été impactés. Les trois problèmes ont été corrigés respectivement le 7, 10 et 20 avril, avec la version finale en v2.1.116.

La première modification a eu lieu le 4 mars. Pour réduire la latence exceptionnelle occasionnelle de Opus 4.6 lors de fortes charges de raisonnement (l’interface semblant se figer), l’équipe a changé le niveau de raisonnement par défaut de Claude Code de high à medium. Après que les utilisateurs aient signalé une baisse de performance, le 7 avril, la modification a été annulée, et Opus 4.7 a été configuré par défaut en xhigh, tandis que les autres modèles restent en high.

La deuxième concerne un bug introduit le 26 mars. Initialement, il était prévu qu’après une inactivité de la session de plus d’une heure, les anciennes données de raisonnement soient effacées pour réduire le coût de reprise de la session. Une faille dans la mise en œuvre a causé une suppression répétée à chaque tour, entraînant une perte progressive du contexte de raisonnement, ce qui se manifeste par une oubliade accrue, des opérations répétées et des appels d’outils anormaux. Ce bug a également provoqué un cache miss à chaque requête, accélérant la consommation des quotas utilisateur. L’équipe indique que deux expérimentations internes non liées ont masqué les conditions de reproduction, ce qui a nécessité plus d’une semaine pour diagnostiquer, et la correction a été déployée le 10 avril. Par la suite, une revue de code avec Opus 4.7 a permis de détecter ce bug, alors qu’Opus 4.6 ne l’avait pas repéré.

La troisième modification, déployée avec Opus 4.7 le 16 avril, consistait à ajouter une instruction dans le prompt système limitant la longueur des réponses : « Le texte entre outils ne doit pas dépasser 25 mots, la réponse finale ne doit pas dépasser 100 mots, sauf si la tâche nécessite plus de détails ». Après plusieurs semaines de tests internes sans retour, le déploiement a montré qu’en superposant cette instruction à d’autres prompts, la qualité de la génération s’était dégradée, affectant Sonnet 4.6, Opus 4.6 et Opus 4.7. Après élargissement des évaluations, il a été constaté que la performance de Opus 4.6 et 4.7 avait diminué de 3 %, et la mise en rollback a été effectuée le 20 avril.

Ces trois modifications ont impacté différents groupes d’utilisateurs, à différents moments, et leur superposition a entraîné une baisse de qualité large mais incohérente, compliquant le diagnostic. Anthropic indique qu’à l’avenir, ils exigeront que plus d’employés internes utilisent la même version publique que celle des utilisateurs, que chaque modification du prompt système fasse l’objet d’une évaluation complète avec le suite de tests du modèle, et qu’une période de déploiement progressif soit mise en place.

En guise de compensation, Anthropic a réinitialisé les quotas d’utilisation de tous les abonnés.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler