Les agents d'IA d'entreprise ont besoin de tests de résistance, pas de discours de vente

Abhishek Saxena, Responsable de la stratégie et de la croissance, Sentient.


La FinTech évolue rapidement. Les actualités sont partout, la clarté ne l’est pas.

FinTech Weekly regroupe les histoires et les événements clés en un seul endroit.

Cliquez ici pour vous abonner à la newsletter de FinTech Weekly

Lue par des dirigeants de JP Morgan, Coinbase, BlackRock, Klarna et plus.


L’IA d’entreprise a un problème de confiance que nulle quantité de marketing ne peut résoudre. Les entreprises commencent à déployer des agents autonomes dans des environnements de production où une seule mauvaise décision peut déclencher une violation de conformité, un échec de paiement, une erreur de trading, une perte financière ou une crise de réputation. Pourtant, la norme de l’industrie pour évaluer si un agent est prêt pour la production reste, en pratique, une démonstration qui paraît impressionnante sur scène.

Le lancement Nvidia’s NemoClaw cette semaine signale à quelle vitesse les agents autonomes passent de l’expérimentation aux processus de travail en entreprise. La plateforme ajoute des contrôles importants en matière de sécurité et de confidentialité, notamment l’isolation (sandboxing) et des garde-fous de politique. Mais le déploiement sécurisé n’est pas la même chose que la préparation à la production. La question la plus difficile est de savoir si ces systèmes ont été testés pour fonctionner de manière fiable face à l’ambiguïté, aux cas limites et à la pression réglementaire.

Construire un agent capable d’accomplir une tâche dans un environnement contrôlé est relativement simple. Construire un agent capable de gérer l’ambiguïté, de se remettre d’entrées inattendues, de maintenir la cohérence sur des milliers d’interactions simultanées, et de tout cela sans enfreindre des contraintes réglementaires, est un tout autre défi d’ingénierie.

C’est là que de nombreux déploiements en entreprise rencontrent des difficultés. L’écart entre les performances en démo et la fiabilité en production est plus large que ce que la plupart des équipes anticipent.

Un agent qui gère une demande de support client de façon impeccable pendant les tests peut halluciner une politique de remboursement qui n’existe pas lorsqu’il est confronté à un cas limite qu’il n’a jamais vu. Un agent gérant des processus financiers peut fonctionner parfaitement sur des données historiques, mais prendre des décisions catastrophiques quand les conditions de marché sortent de sa distribution d’entraînement. Un agent logistique qui coordonne une chaîne d’approvisionnement peut réussir en simulation, mais rencontrer des difficultés quand des retards dans le monde réel et des signaux contradictoires commencent à s’accumuler.

Quiconque a fait passer des agents par des tests en environnements adverses reconnaîtra rapidement ces schémas. Les systèmes fonctionnent—jusqu’à ce qu’ils rencontrent le genre d’ambiguïté et de pression qui définissent les opérations réelles.

C’est pourquoi l’attention actuelle de l’industrie sur la création de davantage de frameworks d’agents manque une pièce critique du puzzle. Le vrai goulot d’étranglement n’est pas la rapidité avec laquelle les entreprises peuvent créer des agents. C’est la capacité à les évaluer avec confiance avant de leur confier de vraies responsabilités.

Ce dont l’IA d’entreprise a besoin, c’est d’une infrastructure de tests de résistance rigoureuse et systématique conçue spécifiquement pour les systèmes autonomes. Cela signifie introduire délibérément les types d’entrées qui font échouer les agents en production. Cela signifie évaluer le comportement des agents face à l’incertitude, à des informations contradictoires et à des cas limites qui n’apparaissent pas dans des jeux de données de référence propres. Et cela signifie une évaluation continue, pas un test unique avant le lancement.

L’approche open-source de NemoClaw est un pas dans la bonne direction, car elle donne aux développeurs une visibilité sur la façon dont les agents fonctionnent. On ne peut pas tester correctement une boîte noire. Mais la visibilité seule ne suffit pas. L’infrastructure de test elle-même doit évoluer en même temps que les systèmes qu’elle évalue.

Le développement des agents doit partir du principe que des modes de défaillance sont inévitables et qu’ils doivent être révélés tôt. L’objectif n’est pas de prouver qu’un agent fonctionne une fois, mais de comprendre comment il se comporte lorsque les conditions deviennent imprévisibles. Cet état d’esprit change la manière dont les agents sont évalués, la façon dont les garde-fous sont conçus, et la préparation des systèmes pour un déploiement dans des environnements à enjeux élevés.

Les enjeux ne feront qu’augmenter à mesure que les agents passent de tâches isolées à des flux de travail de bout en bout. Les entreprises explorent déjà des agents qui négocient des contrats, exécutent des transactions financières, coordonnent des chaînes d’approvisionnement et gèrent des processus opérationnels complexes. Lorsque ces systèmes fonctionnent sur plusieurs points de décision, l’impact d’une seule erreur peut rapidement s’enchaîner.

Un agent de support client qui échoue perd un ticket. Un agent financier qui échoue peut faire perdre du capital. Un agent opérationnel qui échoue peut retarder toute une ligne de production.
Les entreprises qui réussiront finalement avec l’IA d’entreprise ne seront pas celles qui auront déployé des agents en premier. Ce seront celles qui auront déployé des agents auxquels on pouvait réellement faire confiance.

La confiance n’est pas une fonctionnalité qu’on ajoute à la fin du développement. C’est une discipline d’ingénierie—qui commence par la façon dont les systèmes sont testés, la manière dont leur comportement est évalué sous pression, et la compréhension de leurs modes de défaillance bien avant qu’ils ne touchent une charge de travail en production.

Nvidia fournit aux entreprises des outils puissants pour construire des agents autonomes. La question la plus difficile—et celle qui déterminera si ces systèmes réussiront dans le monde réel—est de savoir si les organisations investissent de façon équivalente dans l’infrastructure nécessaire pour prouver que ces agents sont prêts.


À propos de l’auteur

Abhishek Saxena est le Responsable de la stratégie et de la croissance chez Sentient, une plateforme open-source d’IA qui construit l’infrastructure pour des agents autonomes dignes de confiance. Auparavant, Abhishek a occupé des postes chez Polygon Technology, Apple et InMobi, et il est titulaire d’un MBA de la Harvard Business School.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler