Comment faire en sorte que le programme AI écrive plus lentement mais de manière plus précise : revue par plusieurs modèles PR, pour réduire au minimum la probabilité de bugs

L'ancien ingénieur senior de Microsoft Nolan Lawson utilise trois modèles, Claude, Codex et Cursor Bugbot, pour examiner simultanément les PR, en vérifiant croisée pour réduire le taux de faux positifs à presque zéro.
(Contexte : Claude Code annonce une augmentation de 50 % de la limite hebdomadaire d'utilisation des tokens ! Pour deux mois, Anthropic s'empare de l'écosystème des développeurs)
(Information complémentaire : Stripe lance un test de paiement automatique avec un agent IA : supportant le paiement en USDC sur la chaîne Base via x402)

Table des matières de cet article

Toggle

  • LLM naturellement doués pour détecter les bugs
  • La logique de vérification croisée dans la revue multi-modèles
  • La baisse de vitesse, l'amélioration de la qualité

Nous savons que l'avantage de la programmation assistée par IA est « produire rapidement une grande quantité de code », mais la précision reste sujette à discussion. Nolan Lawson, ancien ingénieur senior chez Microsoft et Salesforce, a récemment documenté un nouveau flux de travail sur son blog : il utilise plusieurs grands modèles de langage pour examiner simultanément chaque pull request (demande de fusion de code, en gros chaque fois qu’on intègre du nouveau code dans un projet), dans le but de faire une vérification croisée pour identifier de véritables bugs, plutôt que de produire rapidement plus de code.

Ce processus n’augmente pas la quantité de code produite, mais améliore nettement sa qualité.

LLM naturellement doués pour détecter les bugs

Le projet Glasswing lancé cette année par Anthropic (mise à jour publique du système Mythos) fournit une base de données directe pour cette logique.

Ce système permet à des agents LLM de scanner à grande échelle du code source open source. Résultat : après avoir analysé plus de 1 000 projets open source, le système estime avoir détecté 6 202 vulnérabilités à haute gravité ou critiques, pour un total de 23 019 vulnérabilités (y compris à gravité faible). Parmi les 1 752 vulnérabilités vérifiées individuellement par une société de sécurité indépendante, 90,6 % ont été confirmées comme de véritables problèmes, et 62,4 % étaient de niveau élevé ou critique.

Ces chiffres illustrent une transformation fondamentale : la recherche de bugs n’est plus le goulot d’étranglement, c’est la vérification et la correction qui le sont.

Le rapport d’étude d’Anthropic indique clairement : « Les progrès en sécurité logicielle, qui étaient autrefois limités par la vitesse de détection des vulnérabilités, sont désormais limités par la vitesse de vérification, de révélation et de correction. » En d’autres termes, l’IA a déplacé le goulot d’étranglement du « détection » vers la « capacité de traitement ».

La logique de vérification croisée dans la revue multi-modèles

La méthode centrale de Lawson consiste à faire fonctionner simultanément plusieurs modèles de différents fournisseurs pour examiner une PR, plutôt que de se fier à un seul.

Son ensemble d’outils inclut Claude code, Codex d’OpenAI, et Cursor Bugbot, qui analysent indépendamment la même pull request, puis compilent tous les résultats, classés par gravité critique (critical), élevée (high), moyenne (medium), faible (low).

Une caractéristique clé de cette conception de vérification croisée multi-modèles : un seul modèle peut facilement générer des faux positifs, mais si plusieurs modèles issus de formations et architectures différentes pointent vers le même problème, le taux de faux positifs chute considérablement, tout en augmentant la couverture. Selon Lawson : « Le taux de faux positifs est proche de zéro, la couverture des bugs trouvés est très élevée. »

Son processus décisionnel est très clair. Tous les problèmes critiques et élevés doivent être corrigés en priorité ; pour les niveaux moyen et faible, il faut évaluer le « coût de réparation » par rapport à « l’impact réel », et ceux qui ne valent pas la peine sont directement ignorés pour ne pas gaspiller de ressources ; si une PR comporte trop de problèmes critiques, elle est abandonnée et refaite complètement, plutôt que de continuer à patcher sur une base problématique.

La technique de revue PR de Lawson s’appuie sur une étude analysant la performance de plusieurs modèles dans la revue de code : plus il y a de modèles diversifiés, plus le rapport final est précis, car le principe est « la diversité des modèles réduit les biais ». Des modèles entraînés sur des données différentes ont des biais opposés face au même code, et le vote majoritaire permet d’éliminer efficacement les angles morts d’un seul modèle.

La baisse de vitesse, l'amélioration de la qualité

Après avoir adopté ce processus, Lawson constate concrètement : la quantité de code (nombre de lignes) ne diminue pas, mais il détecte souvent d’anciens bugs, ce qui l’oblige à écrire des tests unitaires (tests automatisés pour vérifier chaque petite fonction), et la correction des bugs existants prend souvent plus de temps que le développement de nouvelles fonctionnalités.

Ce n’est pas le résultat qu’il espérait, mais d’un autre point de vue, c’est un signe que la santé fondamentale du code est systématiquement renforcée.

Lawson qualifie cette méthode de « coding avec une vibe plus qualitative », prudente, méthodique, orientée vers la qualité.

L’adoption généralisée des outils de développement privilégie souvent la « vitesse » comme argument principal, mais le vrai problème que doivent résoudre les ingénieurs n’a jamais été seulement la rapidité. Chaque ligne de code a un coût de maintenance, un risque de problème. Utiliser l’IA pour ralentir la production de code, mais faire en sorte que chaque ligne survive plus longtemps et ait moins de chances de poser problème, c’est une approche qui privilégie la durabilité et la fiabilité.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire