Se contenter de Vibe Coding ne fait pas de vous un expert ! Anthropic révèle la vérité : la connaissance spécialisée est plus importante que l'écriture de code

Le rapport indique que, lors de l'utilisation de l'intelligence artificielle pour programmer, la connaissance du domaine et la capacité d'acceptation sont plus cruciales que les compétences en programmation. Posséder un jugement professionnel et la capacité de poser des questions permet d'améliorer considérablement le taux de réussite des missions.

Le 16 juin, Anthropic a publié un rapport de recherche intitulé « Agentic coding and persistent returns to expertise » (le codage agentique désigne « la programmation déléguée », où vous donnez des instructions, et l'IA lit ses fichiers et exécute les commandes pour faire le travail).

Le rapport analyse environ 235 000 utilisateurs et environ 400 000 interactions avec Claude Code entre octobre 2025 et avril 2026. Il cherche à répondre à une question qui inquiète beaucoup de gens : une personne sans formation formelle en programmation peut-elle vraiment diriger l'IA pour réaliser des tâches techniques complexes ?

La réponse du rapport est affirmative, mais ce qui est vraiment important, c'est la conclusion : la capacité à écrire du code n'est peut-être pas si essentielle, et ce qui compte davantage, c'est « la compréhension de ce que vous avez en main ».

« Tout le monde peut écrire du code », cette phrase n'est qu'à moitié vraie

Au cours de l'année dernière, le « vibe coding » (programmer selon l'intuition, en décrivant en langage naturel ce que l'on veut, et l'IA génère directement le code exécutable, sans que l'on ait besoin de comprendre chaque ligne) a connu un grand succès dans la communauté de développement. Suivant cette tendance, la narration la plus courante est : le seuil d'entrée pour programmer a été abaissé, tout le monde devient ingénieur.

À qui profite cette narration ? Aux fabricants d'outils d'IA, et aux employeurs qui pensent ne plus avoir besoin d'engager des ingénieurs, c'est une bonne histoire. Mais le rapport corrige cette vision en une version plus pragmatique.

Anthropic évalue chaque utilisateur lors de chaque interaction, en le classant selon cinq niveaux allant de « débutant » à « expert », basé sur la transcription mot à mot. Il faut noter que ce niveau de compétence ne dépend pas du titre ou de l'intelligence perçue d'une personne, mais est spécifique à la tâche.

Le rapport donne un exemple clé : un comptable qui n'a jamais utilisé Python, mais qui peut clairement expliquer à Claude comment définir des règles de rapprochement, et qui peut repérer des erreurs de frontière manquées par l'IA lors de la clôture mensuelle, est considéré comme un expert pour cette tâche ; inversement, un ingénieur expérimenté posant une question pour la première fois sur le langage Rust est un débutant.

En d'autres termes, la « spécialisation » dont il est question ici ne concerne pas la capacité à coder, mais la compréhension du « problème à résoudre ». C'est pourquoi réduire le rapport à « tout le monde peut remplacer un ingénieur » est une erreur : la connaissance du domaine est une forme de jugement professionnel qui se construit sur des années, elle n'a pas disparu, mais elle devient plutôt une limite.

Comment se répartissent les rôles : vous posez la question, l'IA répond

Le graphique le plus clair du rapport montre la division du travail décisionnel entre l'humain et l'IA. Anthropic décompose chaque décision en « planification » (ce qu'il faut faire, quelle méthode utiliser, comment considérer l'achèvement) et « exécution » (modifier quel fichier, écrire quel code, utiliser quel langage). En moyenne, l'humain prend environ 70 % des décisions de planification, tandis que Claude réalise environ 80 % des décisions d'exécution.

Source : Anthropic

En termes simples, l'humain est responsable de poser la question et de valider, l'IA se charge de l'exécution. De plus, plus l'utilisateur est expérimenté, plus cette division tend à « laisser faire » : le rapport montre qu'une nouvelle personne donne en moyenne 5 commandes par instruction, générant environ 600 mots ; un expert donne en moyenne 12 commandes, produisant environ 3 200 mots. Les experts osent confier de plus gros morceaux de travail, car ils savent comment décrire et comment valider.

Source : Anthropic

C'est la première surprise du rapport : plus l'IA est puissante, plus le levier de l'utilisateur expérimenté s'amplifie, au lieu de se réduire.

Les chiffres qui font la différence : le taux de réussite

Anthropic mesure deux choses pour déterminer si la conversation a réussi : la plus large étant « au moins partiellement réussie » ; la plus stricte étant la « réussite vérifiée » (c'est-à-dire que ce n'est pas seulement l'IA qui juge que c'est terminé, mais aussi la présence de commits Git, de tests passés, ou de validations explicites par l'utilisateur).

Selon la norme la plus stricte : le taux de réussite vérifiée pour un débutant n'est que de 15 %, tandis que pour un utilisateur intermédiaire ou expert, il atteint entre 28 % et 33 %. Avec une norme plus souple, ces chiffres sont respectivement de 77 % pour les débutants, et entre 91 % et 92 % pour les niveaux supérieurs.

Source : Anthropic

Mais il y a un détail que le rapport souligne particulièrement : la majorité des gains se concentre dans la transition « débutant vers intermédiaire », et la courbe se stabilise ensuite. En utilisant les mots du rapport, dès qu'on a une maîtrise de base dans un domaine, on peut profiter de la majorité des bénéfices, la maîtrise approfondie n'apportant qu'un léger plus.

La différence se voit aussi dans la capacité à tenir lors de difficultés. Quand la conversation rencontre un problème (erreur, échec de test, tentatives répétées), 19 % des débutants abandonnent directement sans écrire une seule ligne de code ; ce taux tombe à 5-7 % pour les autres. Le rapport interprète cela comme la capacité à ramener l'IA sur la bonne voie étant une compétence professionnelle à part entière.

Une découverte sous-estimée : la différence professionnelle est bien plus faible qu'on ne le pense

Si le background en programmation était vraiment si déterminant, les ingénieurs logiciels devraient largement dominer. Or, ce n'est pas le cas.

Dans les conversations où l'IA génère du code, le taux de réussite vérifiée des professionnels de la programmation est d'environ 34 %, contre 29 % pour les autres professions, avec une différence de seulement 5 points de pourcentage, et ce, sur sept mois, sans augmentation ni diminution.

Le rapport a analysé les dix principales professions dans les données, et chaque taux de réussite se situe à moins de 7 points de pourcentage de celui des ingénieurs. Plus surprenant encore, les managers ont un taux de réussite vérifiée légèrement supérieur à celui des ingénieurs.

Le rapport propose deux explications possibles : d'une part, que les managers « commandent, délèguent, définissent des tâches » et que ces compétences se transfèrent à la gestion de l'IA ; d'autre part, que la méthode de mesure est biaisée, car la réussite vérifiée dépend beaucoup de la confirmation explicite de l'utilisateur dans la conversation, ce que les managers ont tendance à faire naturellement.

Au cours de ces sept mois, une autre tendance notable est la réduction du temps consacré au débogage (trouver et corriger des erreurs) dans les conversations, passant de 33 % à 19 %, soit une réduction de moitié ; parallèlement, le temps consacré à l'exploitation du logiciel (déploiement, configuration, mise en marche) est passé de 14 % à 21 %, et la rédaction ou l'analyse de données a doublé, passant d'environ 10 % à 20 %.

Le rapport estime la valeur de chaque tâche en la comparant au marché de la sous-traitance (en précisant que ce n'est qu'une estimation relative, pas une valeur précise), et constate une augmentation d'environ 27 % de la valeur moyenne des missions durant cette période (l'estimation du rapport indique aussi environ 25 %).

Ce que le rapport ne dit pas, mais qu'il faudrait surtout garder en tête

Le rapport admet ses limites : il ne peut pas voir les résultats réels dans le monde, ni savoir si le code généré lors d'une conversation a été utilisé par la suite ; il exclut aussi l'utilisation « hors interaction » (par exemple, intégrer Claude Code dans des processus automatisés), qui représente une part importante. Toutes les classifications sont basées sur l'interprétation du modèle à partir de la transcription mot à mot. Il s'agit donc d'une « photo » précoce, pas d'une conclusion définitive.

Ce qui devrait surtout retenir l'attention des professionnels de la connaissance, c'est la question posée à la fin du rapport. Anthropic indique qu'ils continueront à suivre une chose : si « le retour sur investissement du savoir-faire dans le domaine » commence à diminuer, cela signifiera que le modèle commence à pouvoir fournir lui-même le jugement que l'utilisateur doit encore apporter.

La leçon à tirer : il n'est pas nécessaire de s'inquiéter de ne pas savoir programmer, ni de suivre un cours pour apprendre à coder. Il est plus rentable d'approfondir votre connaissance du domaine, et de clarifier ce qu'est « la bonne réponse ».

Commencez par bien définir le problème, puis confiez à l'IA l'accélération ; validez d'abord, puis osez lâcher prise.

  • Cet article est reproduit avec permission de « Digital Times »
  • Titre original : « Ne vous contentez pas de savoir coder ! Anthropic révèle la vérité sur Vibe coding : plus que coder, c'est la connaissance du métier qui constitue le vrai levier »
  • Auteur original : Li Xiantai
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé