Harness dépasse les frontières : au-delà du modèle, le terrain d'application devient le « premier critère » pour le choix de l'IA en entreprise

Article | Dú Dú

Éditeur | Pi Ye

D’après les tendances actuelles, Harness ressemble davantage à une « couche intermédiaire irréversible ».

Tout comme un système d’exploitation le fait pour le matériel, une base de données le fait pour les applications, Harness est en train de devenir cette couche « d’interface » entre l’IA et le monde réel. Quand l’IA passe du « fait de parler » au « fait de faire des tâches », Harness est cette bride qui détermine jusqu’où elle peut aller.

En 2026, le marché mondial de l’IA destinée aux entreprises est déjà discrètement entré dans une « zone d’eaux profondes ».

Au cours des trois dernières années, les capacités des grands modèles ont évolué à une vitesse quasi incontrôlée : des assistants de dialogue à la génération de code, de la création de contenu à un raisonnement complexe, avec des limites « intellectuelles » des modèles elles-mêmes sans cesse repoussées. Aujourd’hui, les grands modèles généralistes sont devenus une infrastructure aussi fondamentale que l’électricité et l’eau courante.

Cependant, cela n’a pas pour autant rendu les entreprises sereines. Une réalité contrastant fortement avec les progrès technologiques se fait jour : plus l’IA est puissante, plus les entreprises, paradoxalement, ont du mal à la maîtriser, voire n’osent pas l’utiliser. Un rapport intitulé « Situation de l’IA en entreprise en 2026 » publié par Deloitte indique qu’en dépit du fait que 80 % des entreprises interrogées déclarent avoir déjà déployé des outils d’IA, seules 15 % parviennent réellement à déployer à l’échelle et à générer une valeur commerciale significative.

Pendant que l’industrie s’enlisait dans la confusion, le vent a tourné.

En janvier 2026, au sein d’OpenAl, une équipe d’ingénieurs initialement composée de seulement 3 personnes a démarré à partir d’un dépôt Git vide et, en l’espace de 5 mois, a construit un produit Beta complet comprenant plus d’1 million de lignes de code. Durant tout le processus, aucune ligne de code n’a été saisie manuellement par des humains. Fait notable : l’équipe a ensuite été étendue à 7 personnes. Pendant cette période, environ 1500 requêtes de tirage (pull requests) ont été fusionnées, et en moyenne chaque ingénieur a pu faire avancer 3,5 PR par jour. À mesure que le processus mûrissait, l’efficacité de production continuait d’augmenter. OpenAI estime que cette approche permet d’économiser environ 10 fois plus de temps que le développement traditionnel par codage manuel.

Ce n’est pas seulement un gain d’efficacité : c’est une remise en question de la définition même de « l’ingénierie logicielle ». OpenAI a nommé cette nouvelle méthodologie « Conduire l’ingénierie » (Harness Engineering).

Cette transformation a rapidement déclenché un écho dans les milieux technologiques de pointe. De LangChain à OpenAI, puis à Anthropic, un groupe de joueurs technologiques clés a, presque sans concertation, déplacé son centre de gravité de la « puissance des modèles » vers « l’ingénierie des systèmes », pour progressivement converger vers une nouvelle formule de consensus : Agent = Model + Harness.

Dans ce contexte, certains problèmes surgissent aussi : s’agit-il simplement d’une solution « transitoire » avant que les grands modèles n’atteignent leur maturité, ou bien Harness est-il en train de devenir la première étape pour déployer l’IA au sein des entreprises ?

  1. Pas intelligent, pas contrôlable : l’industrie commence à chercher une « bride » pour les Agent

Pourquoi tous les acteurs majeurs parient-ils sur Harness ?

Commençons par examiner un ensemble de données issues d’une enquête de Gartner. Les résultats montrent qu’au sein des projets d’IA en entreprise dans le monde, seuls moins de 15 % parviennent réellement à déployer à l’échelle en entreprise. Et « l’instabilité des agents dans les tâches complexes » figure, pour 78 % des responsables de l’IA, comme le principal obstacle n°1 au déploiement.

Cette difficulté de mise en production a été confirmée à maintes reprises dans les retours techniques des acteurs de premier plan.

Microsoft l’a dit sans détour : à l’heure actuelle, le développement d’Agent manque de mécanismes efficaces de trace (suivi). En cas d’échec de la tâche, les développeurs n’ont pratiquement d’autre choix que de « deviner » pour déboguer ;

Anthropic, de son côté, met en lumière dans sa documentation technique deux déficiences profondes : d’une part l’anxiété contextuelle, où le modèle perd progressivement sa cohérence lorsqu’il traite des tâches longues, voire, en raison de la proximité de la limite de contexte, développe une sorte de lassitude du « travail bâclé » ; d’autre part l’optimisme aveugle : le modèle excelle très peu dans l’évaluation de sa propre qualité, et les résultats qu’il produit affichent souvent une confiance excessive.

En parallèle, OpenAI a également lancé une alerte : à mesure que la collaboration entre plusieurs Agent et l’appel d’outils deviennent de plus en plus fréquents, les risques de sécurité comme le PromptInjection (injection d’instructions) et la fuite de données sensibles sont amplifiés sans cesse.

L’addition de ces problèmes entraîne, côté entreprise, quatre conséquences directes : effets instables, risque incontrôlable, impossibilité d’attribuer les responsabilités en cas de problème, et ROI impossible à prouver. Et au fond, ce n’est pas que les « modèles ne sont pas assez intelligents », mais que les entreprises manquent d’un « système d’exploitation » capable de faire tourner l’IA de façon continue, fiable et à grande échelle.

En regardant en arrière sur les trois dernières années, la forme de l’IA a changé de nature. En 2022-2024, l’IA ressemblait davantage à un robot de questions-réponses avancé. Puis, en 2026, pour la première fois, l’IA acquiert réellement la capacité de travailler en continu : elle peut décomposer des tâches, appeler des outils, exécuter des processus à travers plusieurs systèmes, et même, dans une certaine mesure, décider de manière autonome.

C’est un changement qualitatif. Et c’est précisément à ce moment que le problème est mis à nu de façon encore plus complète. L’IA n’est plus « un hamster enfermé dans une cage », mais devient un cheval fougueux capable de partir à toute vitesse par lui-même. Les autres peuvent l’attraper pour la monter et parcourir de longues distances ; mais dès qu’une entreprise l’embarque, elle finit souvent par « casser les jambes ».

C’est ainsi que tout le secteur a commencé à réaliser une réalité brutale : la limite de l’IA n’est plus déterminée par le modèle, mais par votre capacité à la maîtriser.

En février 2026, un point de bascule clé est apparu. Dans une expérience de l’équipe LangChain, des chercheurs ont constaté que, en utilisant le même modèle (GPT-5.2-Codex) et sans modifier ses paramètres, l’optimisation de Harness permettait à ce modèle de faire bondir sa note dans le test Terminal Bench2.0 de 52.8 à 66.5, passant ainsi de Top30 à Top5.

On peut constater que le modèle n’a pas changé, mais que ses capacités ont fait un saut.

C’est un signal fort : ce que l’industrie manque réellement n’a jamais été « une IA plus intelligente », mais bien une structure d’ingénierie capable de dompter l’IA, de la faire atterrir en douceur. C’est précisément dans ce contexte que Harness Engineering (« Conduire l’ingénierie ») a été officiellement proposé : une « bride » permettant à l’IA de fonctionner de manière continue, fiable et à grande échelle, et un nouvel espoir pour accélérer son déploiement.

  1. Harness : un système de sols pour faire atterrir l’IA des entreprises en douceur

Si la véritable difficulté du déploiement de l’IA tient au fait que l’IA perd le contrôle, alors ce que Harness cherche vraiment à faire, c’est de transformer un système probabiliste en un système industrialisé.

Du point de vue des principes fondamentaux, les grands modèles sont essentiellement des « générateurs de distributions de probabilité », et non des systèmes déterministes. Une étude de 2026 indique qu’avec même des performances excellentes sur des benchmarks à haut niveau, la réussite d’un Agent en exécution répétée peut chuter de 60 % à 25 %, et que sa stabilité reste bien inférieure aux exigences des systèmes de niveau entreprise. Cela signifie que la « justesse moyenne » du modèle, dans un contexte entreprise, revient à de l’« indisponibilité ».

Cela mène à la première question clé : les entreprises ne peuvent pas déterminer pourquoi l’IA se trompe.

Les Agents traditionnels fonctionnent comme une boîte noire : lorsqu’une erreur se produit, on ne sait pas si c’est un mauvais raisonnement du modèle, une anomalie dans l’appel d’outils, ou un dépassement de délai (timeout) d’un système externe. Dans un système d’entreprise, « l’absence d’explicabilité » est en soi inacceptable. Et c’est aussi parce qu’il manque de la visibilité (observabilité) que beaucoup de projets d’IA restent bloqués au stade du débogage, incapables d’aller plus loin. L’industrie considère largement que « l’absence de traçabilité » constitue un obstacle majeur pour entrer en production. Par conséquent, la première étape de Harness n’est pas d’optimiser le modèle, mais de rendre le processus visible.

Il peut enregistrer chaque étape du raisonnement de l’Agent, les paramètres d’appel des outils et le contexte, puis déclencher des mécanismes de rollback ou une prise en charge manuelle dès qu’il détecte une « boucle logique » ou une « voie anormale », transformant un comportement de boîte noire en un système débogable.

Mais le problème ne se limite pas au « fait de ne pas voir ». Plus grave encore : même lorsqu’on voit, cela devient de plus en plus confus. Dans les tâches longues, le modèle développe une « anxiété contextuelle » : plus la tâche est longue, plus le système devient instable, et le modèle a tendance à produire des instructions illégales ou à divulguer des données.

Autrement dit, la perte de contrôle n’est pas un incident ponctuel : elle est amplifiée de façon exponentielle avec la complexité. Ainsi, la deuxième fonction de Harness consiste à limiter la « charge cognitive » du modèle. Il ne sature pas le modèle avec toutes les données d’un coup, mais alimente de façon précise, selon les nœuds de la tâche, uniquement les « connaissances nécessaires », afin de maintenir la lucidité du modèle.

Cependant, même en contrôlant la longueur du processus, il reste un problème plus subtil : le modèle ne sait pas quand il se trompe.

Dans la réalité, une grande partie des projets d’IA en entreprise n’osent pas être mis en ligne, parce que l’auto-évaluation du modèle est souvent « optimiste à tort », et les entreprises n’osent pas envoyer directement les résultats produits par l’IA à des clients.

Ainsi, la troisième couche de capacité de Harness consiste à appeler un autre modèle spécialisé responsable de « l’audit », pour corriger la sortie du modèle principal. On passe d’un « système d’auto-évaluation » à un « système d’évaluation externe », ce qui permet d’établir la fiabilité des résultats.

Mais à ce stade, le problème n’est pas encore terminé.

À savoir : lorsque l’IA entre réellement dans l’environnement d’entreprise, elle ne fait plus face à une seule tâche. Elle se trouve face à un système complexe, par exemple ERP, CRM, un data warehouse, une plateforme low-code, une API gateway, etc.

Et pour accomplir sa mission, l’IA doit solliciter des centaines d’interfaces comme l’ERP, le CRM et la plateforme low-code. Se contenter d’un simple Function Call risque de faire s’effondrer le système. Les données montrent qu’au-delà de 60 % des échecs d’IA proviennent d’un contrôle défaillant du périmètre des tâches et de problèmes liés aux données. Au fond, c’est parce que la « complexité du système dépasse la capacité de prise en charge ». Autrement dit, l’ensemble des problèmes en amont, y compris ceux de boîte noire, de perte de contrôle et d’hallucinations, seront encore amplifiés à l’étape de « l’intégration de systèmes ».

Ainsi, la dernière couche de Harness consiste à jouer le rôle d’un adaptateur universel, transformant les interfaces de données internes des entreprises, obsolètes et non standardisées, en protocoles standardisés lisibles par l’IA, afin que les entreprises puissent gérer de manière unifiée les chemins d’appel, les autorisations et l’état.

En résumé, Harness ne résout pas la question de savoir si l’IA « peut » le faire, mais plutôt la question de savoir comment faire en sorte que l’IA puisse être conçue, contrôlée, évaluée, et intégrée dans de vrais processus métier. En encapsulant les capacités d’IA qui reposaient auparavant sur une sortie probabiliste dans des processus industriels standardisés, prédictibles et auditables, Harness permet à l’IA d’être réellement déployée dans les activités des entreprises.

  1. À l’ère post-Agent : le déploiement de l’IA n’est plus seulement un sujet technique

Harness deviendra-t-il vraiment la nouvelle base interne pour savoir si les Agent peuvent être déployés ?

En réalité, dans l’industrie, cette proposition fait déjà l’objet de débats.

Le camp des grands modèles, représenté par OpenAI et Anthropic, estime que, à mesure que les capacités de raisonnement et de longs contextes s’améliorent, les Agent deviendront de plus en plus « cohérents par eux-mêmes », et que Harness ne serait qu’un « échafaudage » temporaire.

Autrement dit, le camp des grands modèles considère que tant que le « cheval » est assez fort, il peut tracter la charge et avancer tout seul. Si aujourd’hui le cheval doit encore s’appuyer sur des harnais complexes, c’est parce qu’il n’est pas encore assez intelligent. Plus tard, quand le cheval évoluera en « cheval mythique », tous ces échafaudages en bois et cordes deviendront inutiles, et ne feront que gêner l’élan du cheval.

Mais l’autre camp, issu davantage du côté ingénierie et déploiement, pense autrement.

Le fondateur de LangChain, Harrison Chase, a insisté publiquement : les gains de performance proviennent souvent de « l’optimisation des systèmes externes, et non des mises à niveau du modèle ». De son côté, Satya Nadella, de Microsoft, a mentionné à plusieurs reprises que pour que l’IA entre dans les systèmes centraux d’une entreprise, elle doit disposer de « l’observabilité, de la contrôlabilité et des limites de sécurité ».

L’idée sous-jacente est la suivante : même si le modèle est très fort, il reste une « unité de capacité », et non un « système de production ». Même si le cheval est puissant, ce n’est qu’une force animale : sans voiture et sans roues, la marchandise n’a nulle part où être rangée. Sans bride, le cheval partira dans tous les sens. Dans une entreprise, la marchandise, c’est « les données métier » ; la destination, c’est « l’exécution de la tâche ». Sans cette structure d’ingénierie précise, l’IA ne pourra jamais se déployer en toute sécurité et avec exactitude.

En d’autres termes : le modèle détermine « ce qu’il peut faire », tandis que Harness détermine « s’il peut le faire de façon stable ».

De ce point de vue, les divergences entre les deux camps correspondent en réalité à deux questions différentes : l’une répond à « où se situe la limite de l’IA », l’autre à « est-ce que l’IA peut être utilisée ».

Mais pour l’instant, au lieu de débattre de qui remplacera qui, tout le monde commence à jouer la « combinaison de coups ».

D’une part, les fabricants de modèles étendent activement leur approche vers la couche Harness. OpenAI a lancé Agents SDK et Codex, intégrant directement les capacités du modèle dans l’environnement d’exécution. Anthropic a lancé MCP et Agent Skills, transformant la gestion du contexte et les capacités de processus en produits. Cela montre une tendance : même le camp le plus fermement « modèles », commence à combler les capacités de la couche système, car seul le modèle ne suffit plus pour exécuter des tâches complexes.

D’autre part, les cadres d’ingénierie continuent « d’exploiter le bonus » lié à l’amélioration des modèles. Après tout, des frameworks comme LangChain, AutoGen et CrewAI reposent, par nature, sur des modèles plus puissants pour rehausser la limite des capacités.

Ainsi, un paysage de fusion et de recoupement se forme progressivement. Les fabricants de modèles commencent à faire du système ; les fabricants de systèmes dépendent du modèle ; et les deux parties font chacune des incursions vers la frontière des capacités de l’autre.

Cette fusion engendre aussi, plus en profondeur, des formes d’industries encore plus segmentées. Certaines entreprises se spécialisent dans la « couche de traduction », transformant des données complexes et non structurées internes aux entreprises (PDF, Excel, bases de données) en contexte compréhensible par les modèles ; certaines font du « Harness sectoriel », par exemple dans des domaines comme le droit ou la finance, en figer des processus de tâches sous forme de modèles : l’utilisateur n’a plus qu’à saisir les documents, et le système exécute automatiquement l’analyse ; il existe aussi une catégorie qui met en place la collaboration multi-modèles, où Harness devient le « commandant », dispatchant différents modèles selon le type de tâche : laisser GPT générer le contenu, laisser Claude gérer le code, et laisser un modèle local traiter des données sensibles.

Ces formes ont un point commun : elles ne considèrent plus le modèle comme un « produit », mais comme un « composant ». Mais si l’on creuse encore plus profondément, ce débat a aussi une teinte de positionnement assez évidente. Les entreprises de modèles mettent davantage l’accent sur l’importance du modèle, car c’est leur actif principal ;

Les entreprises de frameworks mettent davantage l’accent sur Harness, car c’est là que se situe leur valeur ; et côté entreprises, on s’intéresse davantage aux « données et aux processus », car ce sont eux qui déterminent finalement le ROI.

Autrement dit, il ne s’agit pas seulement d’une dispute sur la voie technique, mais aussi d’une projection d’intérêts commerciaux. Dans une certaine mesure, chaque camp renforce la couche qui lui est la plus avantageuse.

Par conséquent, pour revenir à la question initiale : Harness est-il une solution transitoire, ou bien un nouveau noyau ?

D’après les tendances actuelles, il ressemble davantage à une « couche intermédiaire irréversible ». Tout comme un système d’exploitation pour le matériel, une base de données pour les applications, Harness est en train de devenir cette couche « d’interface » entre l’IA et le monde réel. Quand l’IA passe du « fait de parler » au « fait de faire des tâches », Harness est cette bride qui détermine jusqu’où elle peut aller.

Une quantité massive d’informations, une lecture précise, le tout dans l’application Sina Finance

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler