Pourquoi devez-vous apprendre l'ingénierie de l'harnachement ? Analyse complète de 5 produits, 3 écoles de pensée, 5 principes universels

Question

Système décomposé Harness Engineering 5 produits, 3 écoles (OpenAI / Anthropic / ThoughtWorks), 5 principes universels, et pourquoi « Harness déclin » vous oblige à couper la moitié de la conception tous les 6 mois. Cet article est basé sur un article de @sairahul1, compilé et organisé par Dongqu.
(Précédent : Introduction à Harness Engineering (AI Driving Engineering) : Les normes de programmation les plus récentes d'OpenAI, pour atteindre facilement le niveau 1)
(Complément : Le PDG de YC partage ses secrets AI : L’avenir appartient à ceux qui construisent des systèmes d’intérêt composé d’informations)

Table des matières de cet article

Toggle

1. Définition de Harness
1. Métaphore OS
1. Qu’est-ce qui a changé en 2026
1. Fichiers AGENT.md / CLAUDE.md
1. Listes de fonctionnalités JSON (Suivi de progression)
- Pourquoi JSON et pas Markdown ?
1. Routine d'initialisation de session
1. Contrats de sprint (Sprint Contracts)
- Pourquoi c’est important
1. Modèles de tâches structurés (Structured Task Templates)
1. La branche d’OpenAI : Priorité à l’environnement
- Leur approche
- Les preuves
1. La branche d’Anthropic : Séparer « faire » et « juger »
- Leur solution : 3 agents spécialisés
- Résultats (tests A/B)
1. La branche de ThoughtWorks : Cadre 2×2
- Leur insight : classer chaque contrôle harness selon deux axes
- La matrice 2×2
1. Principe 1 : Le contexte prime sur l’instruction
1. Principe 2 : La planification et l’exécution doivent être séparées
1. Principe 3 : La boucle de rétroaction est non négociable
1. Principe 4 : Faire une seule chose à la fois
1. Principe 5 : La base de code est un document
- Implications pratiques
1. Le déclin de Harness (Harness Decay) est réel
- Voilà ce qu’est le déclin de Harness
1. Construire pour supprimer (Build to Delete)
1. La réalité des coûts
- La partie que personne ne mentionne ici
Résumé complet
- Qu’est-ce qu’un harness
- 5 produits harness
- 3 écoles
- 5 principes universels
- Paradoxes

En février 2026, une petite équipe d’OpenAI a produit 1 million de lignes de code en production.

Ils n’ont pas écrit une seule ligne à la main.

Ce sont des agents IA qui ont écrit.

Ce que les humains ont conçu, c’est le système qui rend l’agent fiable.

Ce système a maintenant un nom — Harness Engineering.

En quelques semaines, Anthropic a publié 3 articles liés. ThoughtWorks l’a organisé en cadre. Philipp Schmid de Hugging Face le qualifie directement de « la discipline la plus importante de 2026 ».

En 90 jours, une nouvelle discipline d’ingénierie s’est formée. Et en dehors des équipes d’infrastructure IA, presque personne ne la comprenait.

Cet article vise à l’éclaircir. Sans bavardages, sans jargon académique, uniquement le modèle mental dont vous aurez vraiment besoin pour l’utiliser.

1. Définition de Harness

La définition la plus simple donnée par ThoughtWorks :

Agent = Modèle + Harness

Harness, c’est tout ce qui est en dehors du modèle.

Les contraintes pour maintenir l’agent sur la bonne voie
La boucle de rétroaction pour détecter les erreurs
La documentation indiquant où l’agent se trouve
Les outils auxquels il a accès

Enlever le harness → un modèle de langage brut qui devine dans votre codebase.

Ajouter le bon harness → un système capable de produire du code en production.

Ce nom vient du harnachement. Harness, c’est la bride, la selle, la morsure — orienter un animal puissant mais imprévisible dans une direction utile.

Vous ne rendez pas le cheval plus intelligent, vous concevez un équipement pour rendre sa force utile.

2. Métaphore OS

Philipp Schmid donne la meilleure métaphore technique : Imaginez-le comme un ordinateur.

| Rôle | | --- | | Correspondance | | --- | --- | | Modèle | Processeur (puissance brute) | | Fenêtre de contexte | RAM (mémoire de travail limitée et volatile) | | Harness | Système d’exploitation (gère ce que le CPU voit, quand il le voit) | | Agent | Application en cours d’exécution |

Votre modèle est puissant. Mais sans OS pour gérer la mémoire, la planification, les règles d’exécution — il n’est qu’un simple silicium.

La plupart des gens font tourner leurs applications « sans système d’exploitation ». Donc leur agent échoue dès la ligne de production.

3. Qu’est-ce qui a changé en 2026

LangChain utilise le même modèle, et l’a testé deux fois sur Terminal Bench 2.0 :

| Harness | | --- | | Score | | --- | --- | | Ancien harness | 52.8% | | Nouveau harness | 66.5% |

Même modèle. Harness différent. Différence de 13,7 points de pourcentage.

Vercel a inversé la tendance — réduit l’agent de 80% d’outils. Résultat ? Meilleur, pas pire.

La vérité la plus inconfortable de 2026 :

L’agent n’a jamais été la partie difficile
C’est le harness

Si 2025 a été l’année où l’agent IA a prouvé qu’il pouvait coder, 2026 est l’année où l’on découvre que « l’environnement » est plus important que « le modèle ».

4. Fichier AGENT.md / CLAUDE.md

Le produit harness le plus universel.

Des fichiers markdown dispersés dans tout le codebase. L’agent lit à chaque session — comme un onboarding pour un nouveau développeur.

Que contient-il ?

Le contexte du projet
Les conventions de codage
Les décisions d’architecture
Les directives « notre façon de faire »
Ce qui est en cours

OpenAI l’appelle AGENT.md. Anthropic, CLAUDE.md. Cursor utilise .cursorrules.

Différents noms, même principe. Un fichier par module principal. Mise à jour au fil du projet.

Sans cela : chaque session d’agent est une ouverture à l’aveugle. Avec : chaque session est enrichie d’informations.

5. Listes de fonctionnalités JSON (Suivi de progression)

Quand l’agent construit une application sur plusieurs sessions, chaque contexte de session est vide. Comment sait-il ce qui a été fait ?

Un fichier JSON.

Chaque entrée indique :

Une fonctionnalité
Comment vérifier si elle est passée
Statut Pass / Fail

L’agent lit ce fichier au début — priorise la correction des échecs → implémente → marque comme passé → commit → répète.

Pourquoi JSON et pas Markdown ?

Anthropic a découvert : la probabilité que l’agent écrase accidentellement le JSON est plus faible que pour Markdown.

Les détails sont minimes, mais cruciaux dans un scénario d’autonomie de 6 heures.

6. Routine d'initialisation de session

Chaque session commence de la même manière. À chaque fois.

La procédure en 7 étapes d’Anthropic :

Vérifier le répertoire de travail
Lire le log git et le fichier de progression
Extraire la tâche la plus prioritaire non terminée de la liste
Démarrer le serveur de développement
Exécuter une validation E2E de base
Implémenter une fonctionnalité
Commit avec message descriptif, mettre à jour la progression

Sans cela : les 20 premières minutes, l’agent essaie de comprendre l’état actuel, et chaque session recommence à zéro. Avec : il part avec toutes les infos en main.

7. Contrats de sprint (Sprint Contracts)

Avant d’écrire une ligne de code — deux agents négocient.

Proposition de l’agent générateur :

Ce qu’il faut faire
Comment vérifier la réussite

Agent évaluateur :

La proposition est-elle complète ?
Les critères de succès sont-ils clairs ?

Une fois l’accord obtenu, l’implémentation peut commencer.

C’est une revue de conception. Mais avec deux IA.

Pourquoi c’est important

Dans la même itération, planifier et exécuter avec le même agent donne des résultats peu fiables. La phase de « planification » — même faite par IA — augmente considérablement la qualité du résultat.

8. Modèles de tâches structurés (Structured Task Templates)

Avant d’écrire du code, le harness analyse réellement la codebase.

Il produit une carte d’impact concrète :

Chemins de fichiers réels (pas des illusions)
Noms de symboles existants
Patterns à suivre
Critères d’acceptation précis

Puis l’implémentation commence.

Cela paraît évident. Mais la plupart des équipes sautent cette étape.

L’agent devine la structure des fichiers, invente des API inexistantes, construit quelque chose qui ne correspond pas à la codebase.

Avoir un contexte concret d’abord, puis agir → la qualité du résultat est bien meilleure.

9. La branche d’OpenAI : Priorité à l’environnement

L’équipe Codex d’OpenAI a un problème absurde :

1 million de lignes de code en production, zéro ligne écrite à la main.

Dans cette échelle, impossible de faire une revue ligne par ligne. Donc ils ne le font pas.

À la place — ils conçoivent l’environnement de façon si rigoureuse que l’agent produit dès le départ des résultats « auditable ».

Leur approche

Flux de dépendances stricts (Types → Config → Repo → Service → Runtime → UI)
Tout le code dispersé dans AGENT.md
L’agent intégré dans le pipeline CI/CD

Philosophie : concevoir l’environnement. Ensuite, laisser l’agent fonctionner.

Les preuves

L’application Sora Android. 4 développeurs. 28 jours. Play Store #1. 99.9% sans crash.

Codex traite 70% des PR internes chaque semaine.

10. La branche d’Anthropic : Séparer « faire » et « juger »

Anthropic fait face à un autre problème :

Quand ils demandent à l’agent d’évaluer ses propres résultats, il se félicite lui-même — même si la qualité est médiocre aux yeux d’un observateur humain.

L’auto-évaluation ne fonctionne pas. L’agent est à la fois étudiant et professeur, et se donne un A+.

Leur solution : 3 agents spécialisés

| Agent | | --- | | Travail | | --- | --- | | Planner | Transforme un prompt de 2 phrases en spécification complète du produit | | Generator | Implémente un sprint à la fois | | Evaluator | Test automatisé via navigateur, comme un utilisateur réel |

Insight : rendre « l’évaluateur indépendant » plus exigeant est beaucoup plus facile que de faire en sorte que le générateur soit critique envers son propre travail.

Résultats (tests A/B)

| Configuration | | --- | Coût | Temps | Résultat | | --- | --- | --- | --- | | Agent unique (sans harness) | $9 | 20 min | Application défectueuse | | Harness complet | $200 | 6 heures | Logiciel fonctionnel + UI soignée |

11. La branche de ThoughtWorks : Cadre 2×2

ThoughtWorks aborde sous différents angles — ils ne créent pas un produit, mais analysent 50+ équipes qui échouent dans les mêmes conditions.

Leur insight : classer chaque contrôle harness selon deux axes

Axe 1 : Quand ça fonctionne ?

Feedforward = avant l’action de l’agent (directive)
Feedback = après l’action de l’agent (capteur)

Axe 2 : Comment ça fonctionne ?

Computationnel = déterministe, millisecondes (linter, vérificateur de types, suite de tests)
Inférentiel = avec LLM, secondes (revue de code, analyse sémantique)

Matrice 2×2

| | | --- | | Feedforward (directive) | | Feedback (capteur) | | --- | --- | --- | | Computational | système de types, linter, règles d’architecture | suite de tests, couverture, tests mutation | | Inférentiel | fichier de spécifications, contraintes descriptives | LLM pour revue de code, vérificateur de comportement |

Feedforward et feedback, utilisés séparément, ne suffisent pas. Il faut les deux.

12. Principe 1 : Le contexte prime sur l’instruction

Différentes équipes, même constat :

OpenAI : donner une carte, pas un manuel de 1000 pages
Anthropic : liste de fonctionnalités JSON + fichier de progression, pour que l’agent sache toujours où il en est
Red Hat : analyser la vraie codebase avant toute tâche
ThoughtWorks : appelé « Feedforward »

Ancrer l’agent dans « l’état actuel du monde », toujours plus efficace que de lui dire abstraitement ce qu’il doit faire.

Ancrer dans les fichiers réels → adapter le code à la base. Partir d’une description vague → API inventée et chemins illusoires.

Avant que l’agent ne tape, assurez-vous qu’il sait où il est.

13. Principe 2 : La planification et l’exécution doivent être séparées

OpenAI : environnement conçu par l’humain, agent exécute
Anthropic : agent planificateur dédié, qui tourne avant le générateur
ThoughtWorks : étape de revue humaine entre planification et réalisation
Red Hat : phase 1 (carte d’impact) et phase 2 (implémentation) séparées par une barrière

Chaque camp découvre que : faire planifier et exécuter dans la même itération donne des résultats peu fiables.

La planification — pas forcément par un humain — doit être une étape séparée, et ses résultats doivent être validés avant de commencer.

14. Principe 3 : La boucle de rétroaction est non négociable

OpenAI : intégration dans CI/CD et observabilité
Anthropic : agent évaluateur dédié + automatisation navigateur
ThoughtWorks : formalisé comme « capteur », avertissant que seule la feedforward ne peut garantir l’efficacité des directives

Trois écoles, même principe, trois approches :

| École | | --- | | Source de feedback | | --- | --- | | OpenAI | Tests automatisés + CI | | Anthropic | Un autre LLM | | ThoughtWorks | Utilisation combinée des deux |

Ils divergent sur « qui fournit le feedback ». Mais pas sur « si le feedback est nécessaire ».

Sans feedback, un harness n’est qu’un prompt avec quelques étapes supplémentaires.

15. Principe 4 : Faire une seule chose à la fois

OpenAI : décomposer l’objectif en petits blocs, priorité à la profondeur
Anthropic : imposer « un seul feature par sprint », finir et commit
ThoughtWorks : cycles en phases (pré-intégration → post-intégration → surveillance continue)

Vouloir faire trop d’agents en même temps :

Épuise le contexte
Perd la cohérence
Jette silencieusement les besoins

La routine d’Anthropic : lire la progression → choisir UNE feature → implémenter → commit → répéter.

Le « principe de progression graduelle » est la clé du succès de tout harness.

16. Principe 5 : La base de code est un document

OpenAI : AGENT.md intégré dans le repo
Anthropic : liste de fonctionnalités, fichiers de progression, historique git — mécanisme de continuité
ThoughtWorks : évalue la « harnessabilité » — lisibilité de la codebase pour l’agent

Personne ne va maintenir une autre base de connaissances pour l’agent. Le repo est la seule vérité.

Si une règle, une contrainte ou une décision d’architecture n’est pas dans la codebase → l’agent ne la saura pas.

Implications pratiques

Les équipes investissant dans l’organisation du code, obtiendront gratuitement de meilleures performances pour l’agent
Repos sale + agent IA = chaos à grande échelle

17. Le déclin de Harness (Harness Decay) est réel

Quand Anthropic passe de Opus 4.5 à Opus 4.6 — la décomposition du sprint (initialement indispensable) devient un fardeau.

Les capacités de planification du modèle ont progressé, rendant cette étape superflue.

Les composants harness qui supportaient encore en mars, en avril deviennent une surcharge.

Puis, avec Opus 4.7 — le modèle commence à vérifier ses propres sorties, et la responsabilité de l’évaluateur diminue à nouveau.

Voilà ce qu’est le déclin de Harness

Chaque composant dans le harness suppose que le modèle ne peut pas faire certaines choses.
Quand le modèle progresse, ces hypothèses deviennent obsolètes, et ces composants deviennent des surcoûts.

| Version du modèle | | --- | | État du harness | | --- | --- | | Opus 4.5 | Décomposition du sprint + évaluation à chaque sprint | | Opus 4.6 | Pas de décomposition + évaluation unique (économise 38%) | | Opus 4.7 | Auto-vérification du modèle → rôle de l’évaluateur réduit |

18. Construire pour supprimer (Build to Delete)

Philipp Schmid recommande : « Build to delete. »

Concevoir chaque composant harness dès le départ pour qu’il puisse être retiré.

Tester régulièrement chaque composant — le désactiver, voir si la qualité de sortie en souffre.
Pas de différence ? Supprimer.

| Équipe | | --- | | Refactorings tous les 6 mois | | --- | --- | | Manus | 5 refactorings de harness | | LangChain | 3 refactorings en 1 an | | Vercel | Supprimer 80% des outils → meilleure performance |

Ce n’est pas un signe de mauvais génie. C’est la conséquence naturelle de « superposer » sur des modèles en rapide évolution.

Un composant de harness mort, qui tourne à chaque fois, brûle des tokens, sans aucune contribution de qualité — pure perte.

19. La réalité des coûts

Les chiffres honnêtes de l’A/B test d’Anthropic :

| Configuration | | --- | | Coût | | --- | --- | --- | --- | | Agent seul (sans harness) | $9 | 20 min | UI modifié, core cassé | | Harness complet (Opus 4.5) | $200 | 6 heures | Logiciel fonctionnel + UI soignée, physique correcte |

22 fois plus cher — pour un vrai produit capable de tourner, pas une simple démo « captures d’écran ».

Est-ce que ça vaut le coup ? Tout dépend du coût pour votre équipe si la version échoue.

Mais cette partie, personne ne la mentionne ici

Le combo Harness + modèle est en évolution constante.

$200 de harness, après mise à jour du modèle, coûte 124$.

| Tendance | | --- | | Meilleur modèle = harness plus simple = coût moindre par exécution = sortie plus rapide |

Les gagnants de 2026 ne sont pas ceux qui écrivent le meilleur code.
Ce sont ceux qui conçoivent les meilleures « contraintes ».
Et qui sont prêts à les jeter dès qu’elles ne rapportent plus.

Voir l'original