Les agents d'IA d'entreprise ont besoin de tests de résistance, pas de discours de vente

Abhishek Saxena, Directeur de la Stratégie et de la Croissance, Sentient.


La FinTech évolue rapidement. Les nouvelles sont partout, la clarté ne l’est pas.

FinTech Weekly livre les principales histoires et événements en un seul endroit.

Cliquez ici pour vous abonner à la newsletter de FinTech Weekly

Lue par des cadres chez JP Morgan, Coinbase, BlackRock, Klarna et d’autres.


L’IA d’entreprise a un problème de confiance que aucun marketing ne peut résoudre. Les entreprises commencent à déployer des agents autonomes en environnement de production où une seule mauvaise décision peut déclencher une violation de conformité, un paiement échoué, une erreur de trading, une perte financière ou une crise de réputation. Et pourtant, la norme de l’industrie pour évaluer si un agent est prêt pour la production reste, en pratique, une démonstration qui impressionne sur scène.

Le lancement de NemoClaw par Nvidia cette semaine indique à quelle vitesse les agents autonomes passent de l’expérimentation aux flux de travail d’entreprise. La plateforme ajoute des contrôles importants de sécurité et de confidentialité, notamment la sandboxing et des garde-fous de politique. Mais un déploiement sécurisé ne signifie pas la même chose que la préparation à la production. La question plus difficile est de savoir si ces systèmes ont été testés pour fonctionner de manière fiable dans des situations ambiguës, des cas extrêmes et sous pression réglementaire.

Construire un agent capable d’accomplir une tâche dans un environnement contrôlé est relativement simple. Construire un agent capable de gérer l’ambiguïté, de se remettre d’entrées inattendues, de maintenir la cohérence à travers des milliers d’interactions simultanées, et de faire tout cela sans violer les contraintes réglementaires est un problème d’ingénierie très différent.

C’est là que beaucoup de déploiements en entreprise rencontrent des difficultés. L’écart entre la performance en démonstration et la fiabilité en production est plus large que ce que la plupart des équipes anticipent.

Un agent qui gère parfaitement une requête de support client lors des tests peut halluciner une politique de remboursement inexistante face à un cas extrême qu’il n’a jamais rencontré. Un agent gérant des flux financiers peut performer parfaitement sur des données historiques mais prendre des décisions catastrophiques lorsque les conditions du marché évoluent en dehors de sa distribution d’entraînement. Un agent logistique coordonnant une chaîne d’approvisionnement peut réussir en simulation mais peiner lorsque les retards réels et les signaux conflictuels commencent à s’accumuler.

Quiconque a soumis des agents à des environnements de test adverses reconnaîtra rapidement ces schémas. Les systèmes fonctionnent—jusqu’à ce qu’ils rencontrent le genre d’ambiguïté et de pression qui caractérisent la vraie opération.

C’est pourquoi l’approche actuelle de l’industrie consistant à construire davantage de cadres pour agents manque une pièce essentielle du puzzle. Le vrai goulot d’étranglement n’est pas la rapidité avec laquelle les entreprises peuvent créer des agents. C’est la confiance qu’elles peuvent avoir dans leur évaluation avant de leur confier de véritables responsabilités.

Ce dont l’IA d’entreprise a besoin, c’est d’une infrastructure rigoureuse et systématique de tests de résistance conçue spécifiquement pour les systèmes autonomes. Cela signifie introduire délibérément des types d’entrées qui font échouer les agents en production. Cela implique d’évaluer comment les agents se comportent sous incertitude, avec des informations conflictuelles, et face à des cas extrêmes qui n’apparaissent pas dans des jeux de données de référence propres. Et cela nécessite une évaluation continue, pas un test unique avant le lancement.

L’approche open-source de NemoClaw est une étape dans la bonne direction car elle donne aux développeurs une visibilité sur le fonctionnement des agents. On ne peut pas tester correctement une boîte noire. Mais la visibilité seule ne suffit pas. L’infrastructure de test elle-même doit évoluer parallèlement aux systèmes qu’elle évalue.

Le développement d’agents doit supposer que les modes de défaillance sont inévitables et doivent être détectés dès le début. L’objectif n’est pas de prouver qu’un agent fonctionne une fois, mais de comprendre comment il se comporte lorsque les conditions deviennent imprévisibles. Cette mentalité modifie la façon dont les agents sont évalués, comment les garde-fous sont conçus, et comment les systèmes sont préparés pour un déploiement dans des environnements à enjeux élevés.

Les enjeux ne feront que croître à mesure que les agents passeront de tâches isolées à des flux de travail de bout en bout. Les entreprises explorent déjà des agents qui négocient des contrats, exécutent des transactions financières, coordonnent des chaînes d’approvisionnement et gèrent des processus opérationnels complexes. Lorsque ces systèmes opèrent à travers plusieurs points de décision, l’impact d’une seule erreur peut rapidement se propager.

Un agent de support client qui échoue perd un ticket.
Un agent financier qui échoue peut perdre du capital.
Un agent opérationnel qui échoue peut retarder toute une ligne de production.
Les entreprises qui réussiront finalement avec l’IA d’entreprise ne seront pas celles qui ont déployé les premiers agents. Ce seront celles qui ont déployé des agents en lesquels elles peuvent réellement avoir confiance.

La confiance n’est pas une fonctionnalité que l’on ajoute à la fin du développement. C’est une discipline d’ingénierie—qui commence par la façon dont les systèmes sont testés, comment leur comportement est évalué sous pression, et comment leurs modes de défaillance sont compris bien avant qu’ils ne touchent une charge de travail en production.

Nvidia donne aux entreprises des outils puissants pour construire des agents autonomes. La question plus difficile—et celle qui déterminera si ces systèmes réussiront dans le monde réel—est de savoir si les organisations investissent autant dans l’infrastructure nécessaire pour prouver que ces agents sont prêts.


À propos de l’auteur

Abhishek Saxena est le Directeur de la Stratégie et de la Croissance chez Sentient, une plateforme d’IA open-source construisant l’infrastructure pour des agents autonomes fiables. Auparavant, Abhishek a occupé des postes chez Polygon Technology, Apple, et InMobi, et détient un MBA de la Harvard Business School.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler