Après que le « père du homard » ait critiqué l'internet humain, quelqu'un a enfin pris cela au sérieux.

(Source : Mieux Que du Cerveau)

Rédaction|Zhang Qian

Je ne sais pas si vous vous souvenez encore : l’an dernier, en mars, le gourou de l’IA Karpathy a publié un tweet. En gros, il disait ceci : la plupart des contenus actuels sont encore écrits pour des êtres humains, mais à l’avenir, ceux qui liront ces contenus ne seront peut-être pas des humains, mais des IA. Donc, à partir d’aujourd’hui, nous devons réfléchir à la façon d’écrire des documents plus favorables à l’IA.

Honnêtement, quand j’ai vu cette idée, je n’avais pas encore réalisé ce que cela signifiait. Beaucoup de internautes pensaient peut-être pareil, et certains ont même dit : « y réfléchir maintenant, c’est encore trop tôt, puisque les internautes d’aujourd’hui, c’est surtout des gens ».

Mais en l’espace d’un an à peine, la situation a changé. Après l’avoir expérimenté, beaucoup de personnes qui ont « eu droit aux homards » n’ont même plus envie de s’occuper elles-mêmes de ranger un fichier de bureau, encore moins de faire ce genre de boulot sale et pénible consistant à chercher des informations sur Internet.

On peut presque être sûr que ce dont Karpathy parlait — « l’IA devient la force principale sur Internet » — deviendra bientôt une réalité, car les humains qui ont goûté au bénéfice ne pourront plus revenir en arrière. Et aujourd’hui, à quoi ressemble notre Internet ? Comme l’a dit un internaute : « encore une route pavée à l’époque des carrosses ».

Pour les agents, cette route est semée d’embûches partout — toutes sortes de validations et de programmes de connexion bloquent quand même, les outils trouvés sur le Web doivent être testés un par un, et les tokens semblent être gratuits (en réalité, ils coûtent très cher) ; même si la tâche réussit, il faut attendre une demi-journée, comme quand on se connectait à Internet par modem.

Liu Hongtao, qui a parcouru toutes les étapes depuis l’ère d’Internet sur PC jusqu’à celle d’Internet mobile, m’a dit : « ce genre de situation est en fait difficile à accepter ». Il faut savoir que le critère de disponibilité pour l’Internet humain est de 99,9 % ; et ces gens-là ont même déjà foncé pour faire grimper ce chiffre avec encore plus de « 9 ». Or aujourd’hui, le taux de réussite quand un agent appelle des outils externes n’est que de 60 % — et encore pour un appel un seul pas ; avec quelques étapes de plus, on tombe en dessous de 30 %.

C’est donc lorsque le « père des homards », Peter Steinberger, s’est plaint dans une interview que les infrastructures Internet actuelles sont extrêmement « peu amicales » pour les agents, que Liu Hongtao a ressenti un fort écho. Et ce que Peter a pointé du doigt correspond exactement à la direction entrepreneuriale qu’il avait vue l’année précédente et dans laquelle il est entré officiellement au printemps de l’année dernière — Agent Internet Infra.

Le jugement central de Peter Steinberger est le suivant : l’Internet actuel n’a pas été conçu pour les agents, et il devient de plus en plus défavorable à cause du blocage, des CAPTCHA, du système de droits d’accès, de l’absence de CLI/API, etc. ; par conséquent, la prochaine génération d’infrastructures Internet/logiciels doit être reconstruite dans un sens « friendly aux agents » (les sous-titres sont générés par une IA).

Liu Hongtao a fondé une nouvelle société appelée AgentEarth. Le noyau de l’équipe est constitué de trois personnes, toutes avec des parcours très solides. Lui-même a déjà été président chez Cloud Wisdom, un « unicorn » de l’automatisation/maintenance intelligente, et il a vécu la validation à grande échelle d’infrastructures d’entreprise de 0 à 1. Le CTO, Dan Minghui (Lucas), est l’un des pionniers de la construction du système d’exploitation intelligent de Didi : dans un système de matching temps réel de grande taille pour des centaines de millions d’utilisateurs et une énorme flotte de chauffeurs/commandes de trajets, il a l’expérience de construire et d’exploiter. La scientifique en chef, professeur Xue, s’est plongée dans les technologies réseau de pointe au niveau national depuis de nombreuses années ; la pile de protocoles au niveau le plus bas est son point fort.

CEO d’AgentEarth

Liu Hongtao (à gauche) et Dan Minghui (à droite)

Avec une telle combinaison, c’est manifestement pas pour construire un simple outil d’agent. D’après les mots de Liu Hongtao, ils font un travail d’infrastructure : au niveau le plus bas, construire une « ligne de logistique à grande vitesse » pour Agent Internet, afin que la transmission de données fonctionne de manière stable et rapide ; au-dessus, ouvrir une « boutique en propre haut de gamme » — pas pour que les gens y passent, mais pour servir l’agent comme un véritable utilisateur final : en entrant, l’agent peut appeler rapidement des outils de haute qualité, filtrés et gouvernés. La première partie s’appuie sur leurs protocoles de transmission de nouvelle génération, développés pendant plusieurs années ; la seconde consiste à rendre solide l’ensemble de la mutualisation des outils, de leur hébergement et de leur orchestration intelligente, afin que l’agent n’ait plus besoin d’essayer partout et de heurter partout comme une bête sans tête, ce qui permet d’économiser un temps précieux et des tokens.

Quant au concret, Liu Hongtao en a aussi parlé en détail.

Un Internet conçu pour les humains

Trop pénible pour les agents

Récemment, Anthropic et OpenAI ont encore remis à la mode un mot : Harness Engineering. Dans son blog, Anthropic dit que, avec le même modèle et les mêmes consignes, le jeu qui sort au départ ne peut pas être joué ; mais en changeant la manière d’exécuter et l’environnement, on peut produire un jeu tout à fait correct.

Ces institutions de pointe donnent un avertissement par l’expérimentation : même si l’amélioration du modèle lui-même est essentielle, l’environnement externe autour de l’exécution du modèle ne peut pas être ignoré, sinon cela affectera la capacité des grands modèles à s’exprimer pleinement.

C’est aussi ce qui explique pourquoi OpenAI a déjà déclaré en 2024 que les grands modèles atteignaient dans certains aspects le niveau de compétences d’un docteur, mais jusqu’à cette année, le côté productivité a seulement commencé à procurer une sensation concrète et directement ressentie.

La construction de cet environnement est bien plus complexe qu’on ne l’imagine. Au cours des une ou deux dernières années, dans le domaine Agent Infra, des ingénieurs ont déjà essayé de résoudre certains problèmes, comme le stockage de mémoire à long terme et l’orchestration d’exécution, afin de fournir un système de soutien de niveau inférieur pour un fonctionnement stable des agents. Mais cette « ruée vers les homards » a aussi mis en évidence une faiblesse — les appels externes. Il faut savoir que même pour une simple opération de réservation de billets, un agent doit appeler des outils externes une dizaine de fois. Ainsi, lorsque les agents commencent à « faire des démarches sur le Web » comme les humains, la couche réseau devient un nouveau champ de bataille.

Liu Hongtao mentionne que, pour aborder ce nouveau champ de bataille, la construction des infrastructures doit suivre une nouvelle logique, car le comportement d’un agent sur le Web est totalement différent de celui des humains.

Pour les humains, utiliser Internet consiste à ouvrir un navigateur, chercher des mots-clés, puis ouvrir les pages qui les intéressent. Ensuite vient le parcours, la réflexion et le jugement. Le temps de séjour sur une seule page est relativement long, mais l’ensemble du comportement de navigation n’est pas compliqué, et il existe aussi des technologies de cache comme le CDN (mettre en cache une fois pour desservir un grand nombre de personnes) pour garantir la vitesse, des UI conçues avec soin pour améliorer l’efficacité, et divers outils qui sont devenus relativement faciles à utiliser au fil des années.

Mais l’agent, c’est différent : il ne « regarde » pas le Web, il y va pour « accomplir le travail ». Pour une tâche, l’agent a besoin d’outils qui traversent plusieurs modèles et plusieurs plateformes ; la chaîne d’exécution est longue. Si un endroit se bloque, toute la tâche tombe dans un gouffre d’essais-erreurs. En plus, ses exigences en matière de vitesse sont même plus élevées que celles des humains : il n’a pas besoin de temps de réaction, il veut seulement des résultats le plus vite possible, pour enchaîner immédiatement l’étape suivante.

Or, dans la réalité, les pages et outils sur Internet sont pour la plupart encore conçus pour les humains (comme Peter l’a mentionné : l’agent doit cliquer sur des validations du type « je ne suis pas un robot » sur les pages), et ils ne sont pas sélectionnés et adaptés spécifiquement pour les agents. Du coup, la longue chaîne de l’agent se casse facilement. De plus, ce que l’agent récupère en naviguant sur le Web, certaines choses ne sont que ce dont il a lui-même besoin (par exemple, générer une certaine image) : une fois consommé, les autres ne peuvent pas l’utiliser, ce qui fait que le CDN devient inefficace et que la vitesse ne peut pas augmenter.

En additionnant ces caractéristiques, les infrastructures de l’Internet humain commencent à « mal s’adapter » face aux agents. Et actuellement, Agent Internet se trouve encore dans une phase de croissance sauvage : les outils externes sont mêlés, les interfaces sont confuses, la qualité est inégale ; pendant l’appel, les agents « perdent la tête » souvent, et en répétant les essais-erreurs et la transmission redondante de contexte, ils brûlent inutilement une grande quantité de tokens ; la vitesse de réalisation des tâches n’arrive pas non plus à monter.

À ce point, ce que doit faire Agent Internet Infra est très clair : mettre en place un protocole réseau et un middleware permettant à une multitude d’agents de découvrir de manière autonome, de se connecter en toute sécurité et de coopérer de manière fiable ; il s’agit de résoudre comment les agents se connectent à l’extérieur, et comment les agents coopèrent de façon transparente, comme les humains utilisent Internet. Ses capacités fondamentales incluent l’authentification d’identité, les protocoles de communication, la gouvernance des permissions, les appels d’outils multi-plateformes, l’optimisation de la transmission de données, le paiement des transactions, la gestion de la sécurité, etc.

À l’heure actuelle, certaines entreprises commencent déjà à investir dans cette direction : par exemple Cloudflare a publié le Markdown for Agents qui aide les agents à lire les pages, et Google a publié WebMCP, qui connecte l’environnement du navigateur aux ressources de calcul locales… Mais globalement, cette direction en est encore au stade du développement précoce ; les fournisseurs de la nouvelle génération d’Agent Internet Infra sont encore absents.

Un Internet pour les agents

Comment économiser de l’argent et du temps ?

Dans la direction Agent Internet Infra, la logique entrepreneuriale de Liu Hongtao et de ses collègues a un ancrage central : dès le premier jour, considérer l’agent comme l’utilisateur principal du réseau, c’est-à-dire end user (auparavant, la valeur par défaut était l’humain). Sur ce point, c’est aligné avec le jugement de Karpathy.

Une fois cet ancrage établi, l’orientation de l’optimisation des infrastructures réseau passe de « au service de l’expérience humaine » à « au service du taux et de l’efficacité d’accomplissement des tâches », de « une plateforme fournit de la connexion » à « une plateforme est responsable des résultats ». Concrètement, ils considèrent : est-ce que votre « homard » peut, grâce à ma plateforme, accomplir des tâches avec une qualité élevée, une fiabilité élevée et une efficacité élevée ; je suis responsable de votre résultat ; je dois vous économiser de l’argent et du temps.

Le plus important, c’est que ceci ne s’est pas arrêté au niveau conceptuel ; cela s’est reflété dans les décisions produit.

Le point le plus évident est qu’ils ont volontairement évité de faire des interfaces destinées aux humains, et de concevoir une expérience développeur complexe. À la place, ils ne font que des interfaces d’agent standardisées. Derrière cela, il y a en réalité une conviction très forte : à l’avenir, ce n’est pas le développeur qui configure les outils, mais l’agent lui-même qui assemble les outils. Si vous croyez à cette logique, alors toutes les couches conçues pour « faciliter les actions humaines » ne sont que des solutions de transition à court terme.

Alors, comment ont-ils transformé « qualité élevée et fiabilité élevée » en différenciation ? Ici, en réalité, il y a trois couches dans la pile technologique.

Dans la couche la plus centrale, ils déplacent le « problème de qualité des outils » du côté de l’agent vers celui de la plateforme. Aujourd’hui, l’approche dominante consiste à laisser l’agent choisir les outils, les tester, et à combler les lacunes avec davantage de tokens. Résultat : coûts élevés, taux de réussite faible, et incontrôlable. Dans cette couche, ils reprennent la main : pour l’agent, ils mettent en place un « portail unique » d’accès aux services externes. Autrement dit, l’agent n’a pas besoin de savoir quels outils fonctionnent bien ; la plateforme les a déjà sélectionnés et les couvre en cas de panne. En cas de problème, elle bascule immédiatement. La facturation est aussi unifiée ici : toutes les données sont transparentes, et la personne derrière l’agent peut voir quels outils ont été utilisés et combien de fois ; les tokens dépensés sont clairement explicités, plus jamais un gouffre noir qui « avale de l’argent ».

Quant à la couche au-dessus, elle s’efforce d’assurer la qualité précoce grâce à une logique « en propre ». Au début, ils n’ouvrent pas d’écosystème : ils choisissent les outils eux-mêmes, en mettant l’accent sur la stabilité, l’efficacité et une qualité élevée. C’est comme la boutique en propre de JD.com au début : le cœur était d’aider les « homards » à accomplir les tâches avec une qualité élevée. Après avoir généré du trafic, ils ouvriront aussi l’arrivée de tiers, et utiliseront un algorithme de recommandation d’outils basé sur un grand modèle ainsi que des stratégies d’optimisation des appels pour rendre ce processus hautement intelligent.

La couche en bas, celle qu’ils ont la plus « dure au cœur », consiste à faire descendre la « fiabilité » jusqu’à la couche de transmission, grâce à un protocole de planification intégrée « transmission-stockage-calcul » développé en interne, afin d’accélérer la transmission de données au niveau fondamental.

Dans des tests en conditions réelles, ce protocole est 2 à 10 fois plus rapide que le meilleur protocole open source actuel de l’industrie — Google QUIC ; et lors de tests récents, il a même atteint plusieurs dizaines de fois. Autrement dit, si votre agent veut récupérer à distance des fichiers, des images, des vidéos — en particulier ce type de contenu personnalisé généré juste à l’instant — ce protocole sera beaucoup plus rapide que les méthodes traditionnelles.

Les initiés savent probablement tous que les protocoles forment un ensemble de règles cohérentes entre elles ; par conséquent, développer un protocole n’est pas une tâche à court terme. On ne peut pas le découper en modules et avancer en parallèle comme pour écrire une application. Concevoir un nouveau protocole, c’est élever une nouvelle espèce : il faut partir d’une graine, puis la faire pousser lentement dans un ordre précis. Chaque étape doit attendre que la précédente soit complètement figée avant de commencer. Même en empilant plus d’ingénieurs, on ne peut pas compresser le temps « nécessaire à sa croissance ». Et en plus, dans la conception du protocole, il y a ces connaissances implicites — par exemple les cas limites du comportement réseau, les pièges déjà rencontrés — qui reposent sur des accumulations à long terme. Liu Hongtao dit que ce protocole n’a pas été conçu du jour au lendemain : le cycle de R&D se compte en années, voire en décennies. Les premières accumulations d’expérience visaient à optimiser TCP/IP, et on n’a jamais imaginé que cela deviendrait une barrière technologique centrale de l’entreprise.

Le plafond de cette histoire

Peut-être plus haut que ce qu’on imagine

À l’ère de l’Internet sur PC et de l’Internet mobile, la croissance du nombre d’internautes et du temps passé en ligne par chaque internaute est souvent vue comme la force motrice essentielle de la croissance globale du marché. Mais lorsque les deux approchent leurs limites, cette croissance a déjà atteint un plafond.

L’apparition d’une nouvelle voie, Agent Internet, est en train de réécrire les règles du jeu. Une entreprise, une personne peut déployer des centaines, voire des milliers d’agents ; un agent peut exécuter plusieurs tâches en même temps ; et ces agents n’ont pas besoin de dormir. Cela signifie que la limite de trafic et de valeur supportée par Agent Internet Infra est, à l’heure actuelle, difficile à estimer.

Cela signifie aussi que cette couche peut facilement faire naître une série de nouvelles grandes entreprises. En regardant en arrière l’Internet sur PC et l’Internet mobile : presque chaque couche d’infrastructure a fini par faire sortir une entreprise indépendante, parce que les problèmes étaient suffisamment universels et les besoins suffisamment solides, de sorte qu’à un moment ou un autre, quelqu’un finit par en faire une plateforme. Agent Internet, c’est pareil : et cette fois-ci, l’échelle des utilisateurs et l’intensité des appels sont encore plus extrêmes, et beaucoup de problèmes fondamentaux sont encore vierges, ce qui laisse justement plus de place.

À ce stade tout juste lancé, AgentEarth a déjà occupé une position plutôt correcte.

D’un côté, c’est un jugement relativement précoce et décisif : dès le début, construire le système selon l’idée que « l’agent est l’utilisateur », et se concentrer sur une exécution fiable et de haute qualité des tâches de l’agent. De l’autre, la structure de l’équipe est assez rare : les capacités de protocole au niveau le plus bas sont difficiles à être rattrapées à court terme, et les gens qui ont combattu dans des scénarios avec « des centaines de millions d’utilisateurs et un matching en temps réel à grande échelle de ressources » sont vraiment rares. Des systèmes comme celui-ci ont des exigences extrêmement extrêmes en matière de stabilité, d’efficacité et de tolérance aux pannes ; en temps normal, ils ont rarement l’opportunité de s’entraîner dans ce cadre. Mais dès que l’échelle des appels d’agents augmente, cette expérience deviendra très précieuse, et il n’est pas possible de la rattraper en peu de temps.

Hier seulement, AgentEarth a publié la version test de son produit, et a commencé des tests à petite échelle. Le lien de test est le suivant : Agentearth.ai

Les lecteurs intéressés peuvent aussi scanner le code pour rejoindre le groupe et échanger des retours d’expérience :

Flux massif d’informations, lecture précise, le tout dans l’application 新浪财经APP

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler