Après que l'IA ait tout dévoré, qu'est-ce qui reste encore impossible à entraîner ?

Titre original : The Untrainable
Auteur original : Sarah Guo, Conviction
Traduction : Peggy, BlockBeats

Note de l’éditeur : lorsque les capacités de l’IA continuent de progresser, un nouveau pessimisme émerge dans le monde de l’investissement : si les modèles deviennent de plus en plus puissants, toutes les entreprises applicatives finiront par être absorbées par des modèles et une puissance de calcul comme Anthropic, OpenAI, Nvidia, et le marché ne restera plus que les modèles de pointe, la puissance de calcul et quelques infrastructures de base. Mais Sarah Guo pense que cette vision n’est qu’à moitié juste. Ces « thin wrappers » (emballages fins, c’est-à-dire des applications simplement enveloppées de modèles) seront effectivement absorbés, et toutes les tâches pouvant être mesurées par benchmark, entraînées sur des données publiques, et vérifiées à faible coût, seront progressivement commercialisées.

Le vrai problème est : après que l’IA a absorbé tout ce qui peut être entraîné, qu’est-ce qui reste encore impossible à entraîner ?

La réponse de cet article est : la valeur qui existe au sein des organisations réelles, et qui ne peut pas être facilement copiée de l’extérieur : données privées d’entreprise, flux de travail complexes, confiance des utilisateurs, permissions système, jugements sectoriels, responsabilités réglementaires, et l’expérience accumulée sur le long terme. Les modèles peuvent devenir plus intelligents, mais ils ne peuvent pas automatiquement accéder aux systèmes de production bancaires ; ils peuvent générer des réponses médicales, mais ne peuvent pas directement gagner la confiance des médecins ni s’intégrer aux processus décisionnels hospitaliers ; ils peuvent rédiger des textes juridiques, mais ne peuvent pas assumer la responsabilité comme un avocat expérimenté, ni définir de manière autonome ce qui constitue un travail juridique de qualité.

Ainsi, les véritables entreprises d’IA avec une barrière à l’entrée dans le futur ne seront pas simplement celles qui ont des modèles plus intelligents que les modèles génériques, mais celles qui s’enfoncent profondément dans un secteur, réalisant le difficile mais crucial travail de « traduction » : organiser la réalité privée, les outils, les processus et les critères de jugement d’un client en un système actionnable par le modèle, et définir progressivement ce qu’est un « bon résultat » à travers un service à long terme. Plus l’IA devient forte, plus elle dévalue les tâches mesurables et reproductibles ; et plus elle met en évidence ce qui est « impossible à entraîner » en raison de l’histoire, des relations, des permissions et du jugement professionnel. C’est cette valeur qui pourrait subsister après l’absorption par le modèle.

Voici le texte original :

En milieu 2026, la version investisseur du « délire de l’IA » est une forme de désespoir, une croyance qu’il n’y a plus rien d’intéressant à investir : il faudrait probablement tout mettre dans Anthropic et Nvidia, puis attendre que ça se passe. Mais je n’ai jamais ressenti cela. Depuis plusieurs petites versions, je suis convaincu que les modèles sont déjà plus intelligents que moi ; si je pouvais acheter Anthropic et Nvidia au prix du marché, je le ferais volontiers ; mes amis les plus intelligents sont aussi persuadés que l’auto-amélioration des modèles va très vite devenir une réalité — mais je ne ressens pas cette désespérance.

Ce désespoir n’est pas stupide. Sa logique est la suivante : si les modèles continuent de s’améliorer dans tous les domaines, alors toutes les entreprises basées sur ces modèles ne sont que des coquilles superficielles, destinées à être absorbées ; la seule valeur qui restera sera la puissance de calcul et les poids des modèles de pointe.

Prenons l’exemple du logiciel, c’est le cas où ce sentiment est le plus évident. Lors de sa sortie en 2024, Devin ne pouvait résoudre que 13 % des tâches dans les benchmarks standards, et était donc largement sous-estimé par le marché. Un an et demi plus tard, le meilleur agent pouvait atteindre plus de 80 %, et commençait à traiter des tâches réelles chez Goldman Sachs et dans l’armée américaine. La majorité des gens en ont conclu à tort que : le modèle avait absorbé l’ingénierie logicielle.

Mais après que le modèle a absorbé la partie la plus facilement mesurable de l’ingénierie logicielle, nous redécouvrons une vérité que beaucoup d’équipes connaissent depuis longtemps : l’ingénierie a toujours résisté à la mesure, et la partie la plus facile à mesurer n’est pas forcément la plus importante.

Mert Demirer du MIT et ses collaborateurs ont finalement quantifié cela : parmi plus de 100 000 développeurs, la dernière génération d’agents de codage a augmenté la volume de code écrit d’environ 180 %, mais la quantité de code réellement déployé n’a augmenté que d’environ 30 %. Écrire du code est devenu moins cher, mais les autres étapes restent humaines, et ces étapes sont cruciales. Bien sûr, l’impact global reste impressionnant.

Les benchmarks sont quelque chose que l’on peut mesurer ; et tout ce qui peut être mesuré peut aussi servir à entraîner. C’est pourquoi l’agent de codage a été le premier à devenir mature : le compilateur est un vérificateur gratuit, le jeu de tests aussi. Quand la réponse peut presque se vérifier à zéro coût, on peut continuer à affiner le système autour de ce signal de vérification, jusqu’à le faire exploser.

Mais la vérification ne garantit pas qu’une modification sur un code existant depuis dix ans soit correcte. Ce module peut exister pour trois raisons non documentées ; la pipeline de déploiement peut dépendre d’un cron que personne n’a envie d’admettre comme étant écrit par lui-même.

Cette validité ne se lit pas dans un classement, ni ne peut être réellement déduite de quoi que ce soit d’autre. Il faut laisser un système aussi complexe fonctionner dans le monde réel assez longtemps pour savoir s’il est vraiment efficace. Et un modèle plus intelligent ne fera pas que le monde réel tourne plus vite. Personne ne ferait confiance à un système aussi vaste que Google, après avoir passé ses tests unitaires et vu le vert. La confiance vient du fait qu’il a supporté des années de charge réelle.

Cette validité n’est pas seulement privée, c’est aussi une barrière à l’entrée lente, une barrière que le capital ne peut pas accélérer. Même les optimistes admettent que cette horloge ne peut pas sauter. Noam Brown, pionnier des modèles de raisonnement chez OpenAI, a récemment écrit : évaluer la performance d’un agent sur une année, c’est probablement la seule méthode fiable : le faire fonctionner réellement pendant un an.

Comme le dit Gabe Pereyra, l’automatisation véritable ne consiste pas seulement à rendre les modèles plus puissants. Elle implique une transformation conjointe du produit, du modèle, du flux de travail et de l’organisation de l’entreprise, et parmi ces quatre éléments, trois avancent à la vitesse de l’organisation.

Ce qui motive réellement, c’est une partie que tous les benchmarks ne peuvent atteindre : convaincre un partenaire sceptique de changer sa façon de traiter les affaires, maintenir la cohésion d’une équipe lors d’une reconstruction. C’est aussi pourquoi, lors du recrutement d’un CEO, on valorise ses compétences relationnelles autant que ses capacités analytiques. L’intelligence du modèle ne change pas cette hiérarchie.

Les retours sont flous, la durée est en années, et la confiance appartient à une personne spécifique. Toutes les entreprises que je connais ont déjà permis à chaque ingénieur d’utiliser des modèles de pointe, mais aucune n’a vu ses équipes changer à la vitesse des progrès du modèle. L’adoption d’outils ne prend qu’un trimestre, et c’est un trimestre où le token augmente énormément ! Mais une reconstruction profonde demande des années.

Les tâches visibles, celles qui peuvent être évaluées, s’éloignent. Le vrai travail de valeur est structurellement invisible : tout ce qui peut apparaître dans un classement peut être entraîné ; donc tout ce qui peut être mesuré tend à devenir une marchandise. Ce processus prend du temps, et ne sera jamais totalement achevé, mais sa direction ne changera jamais.

Selon mon ami Matt MacInnis de Rippling, en termes financiers, cela revient à : un token utilisé pour répondre à une question générale n’a presque aucune valeur, car tout modèle peut y répondre ; mais un token basé sur vos données internes, utilisé pour faire du raisonnement, vaut beaucoup plus, car il fait ce que vous souhaitez réellement, plutôt que de simplement générer une réponse plausible.

Le travail lisible sera absorbé de deux côtés :

Du bas vers le haut, la saturation des tâches : dès qu’une tâche peut être vérifiée à faible coût, l’acheteur ne se soucie plus de quel modèle l’a réalisée, mais de combien il doit payer. La tâche sera alors confiée au modèle open source ou distillé le moins cher cette semaine. Tant que la marge le permet, cela finira par se produire.

Du haut vers le bas, les laboratoires tentent d’absorber leurs propres outils : routage entre récupération, appels peu coûteux et coûteux, utilisation d’outils, stratégies de raisonnement — tous ces dispositifs, autrefois externes au modèle, sont en train d’être intégrés dans le poids du modèle, jusqu’à ce que « la coquille » elle-même devienne un modèle. C’est l’absorption des frontières.

La pression sur la rentabilité joue aussi dans un autre sens : un agent général doit être prêt à tout traiter, ce qui coûte cher ; alors qu’une application spécialisée peut optimiser un flux de travail pour n’utiliser qu’une petite partie des tokens. Et, contrairement aux laboratoires qui vendent ces tokens, les entreprises peuvent garder la différence.

Ainsi, pour toute tâche, on peut poser deux questions : sa validité est-elle privée et coûteuse, ou représente-t-elle une vérité interne à une entreprise ? Est-elle isolée dans un système inaccessible à l’extérieur ? En combinant ces questions avec le degré de saturation de la tâche, on obtient une matrice 2×2.

Les tâches saturées et dont la réponse est publique sont celles qui seront commercialisées sous forme de tokens, dominées par l’open source. Les tâches en pointe, mais dont la réponse est publique, comme les benchmarks de codage, sont celles où les laboratoires gagnent, car l’évaluation étant gratuite, sa possession ne vaut rien en soi.

Le vrai enjeu, c’est le dernier coin, celui de « l’impossibilité à entraîner » : des travaux de pointe, dont la validité n’existe que dans un environnement privé. On peut le voir dans le cloud de raisonnement destiné aux pionniers de l’IA : la majorité des tokens y sont générés par des modèles sur mesure, et non par des modèles open source génériques.

Le mur vers ce dernier coin a des hauteurs variables. Un code de développeur, standardisé et transférable, n’est pas difficile à pénétrer. Mais le système de production d’une banque, lui, n’est ni transférable ni standardisé. On ne gagne pas le droit d’y accéder en étant 2 % plus intelligent sur SWE-Bench Verified.

Les capacités absorberont beaucoup de choses, mais un meilleur modèle ne transformera pas les standards privés en standards publics. Il ne détient pas de licences, ne signe pas de responsabilités, et ne possède pas les documents de l’entreprise ; quand une réponse est erronée, il ne peut pas non plus être poursuivi. La limite n’est pas l’intelligence, mais l’autorisation et la responsabilité. On peut imaginer un modèle bien plus intelligent que n’importe qui, mais qui doit toujours être autorisé à entrer, et pour lequel quelqu’un doit signer pour ce qu’il fait.

Cette porte a une serrure et un verrou.

La serrure, c’est l’environnement : il faut gagner la confiance dans un système, après une vérification de sécurité, une intégration, et la signature d’un contrat de responsabilité pour les résultats, pour pouvoir vérifier si l’IA a réellement accompli quelque chose d’utile.

Le verrou, c’est l’utilisateur. Aujourd’hui, la plupart des médecins américains ouvrent chaque jour OpenEvidence, ce qui n’est pas accessible à tous les calculs. Un laboratoire peut entraîner demain un modèle médical parfait, mais il ne pourra pas s’intégrer dans la pratique des médecins, ni dans le processus décisionnel de UCSF. La confiance se construit lentement, par des relations, par l’acceptation des utilisateurs, et non par la descente de gradient pour effacer ces éléments.

C’est aussi le travail des entreprises applicatives. La raison pour laquelle un produit peut occuper une place dans le coin « impossible à entraîner », c’est le travail peu reluisant : organiser la réalité privée d’une entreprise pour que le modèle puisse agir dessus ; fournir des outils d’action ; changer la façon dont les clients travaillent avec leurs équipes.

Une entreprise capable de faire cette « traduction » est difficile à copier, et cette traduction ne se termine jamais. L’intégration et la maintenance durent tant que la relation avec le client. Ce qui gagne, ce sont les équipes qui placent des ingénieurs spécialisés et des outils au plus près du client.

Par exemple, dans un grand cabinet d’avocats historique, près de mille transactions de fusion-acquisition sont traitées chaque année. On ne peut pas demander à des centaines d’assistants juridiques de télécharger les dossiers clients pour chaque affaire, puis de les faire passer à un agent générique. La confidentialité interdit déjà cela, et il y a une multitude d’autres contraintes. Même si c’était possible, on n’apprendrait que des fragments : un assistant corrige une erreur à la fois, personne ne peut voir comment une transaction entière se déroule.

Les signaux vraiment importants existent au niveau des transactions. Chaque transaction a sa propre forme : pour la fusion-acquisition, NDA, liste de clauses, due diligence, contrat d’achat, documents annexes, liste de livraison ; pour les litiges en propriété intellectuelle, motions, divulgation de preuves, technologies existantes, autres motions. Chaque domaine a sa propre structure, et ni les avocats ni les outils ne peuvent être interchangeables à la légère.

Et le vrai problème que cette firme doit résoudre, c’est à un niveau supérieur : comment faire fonctionner simultanément chaque domaine, comme un associé principal gère parallèlement des centaines d’affaires, tout en introduisant de nouvelles affaires et en formant des assistants. Transformer une telle organisation n’est pas une tâche unique que l’on peut évaluer par un benchmark. Il faut un gestionnaire qui traite cela comme un « baseball de données » : des objectifs flous, des retours incomplets, des cycles longs, et un environnement en constante évolution.

Malheureusement, la valeur non lisible est aussi difficile à vendre, pour la même raison que sa non-commercialisation : une entreprise ne peut pas juger de l’impact de l’IA sur ses opérations à partir de l’extérieur. Ainsi, les entreprises les plus fortes cesseront d’essayer de prouver leur efficacité extérieurement, et entreront d’abord dans le système du client, puis fixeront leur prix sur les résultats.

Sierra ne facture que lorsque son agent résout un problème client ; si le problème est transféré à un humain, elle ne facture pas. Le prix devient alors un mécanisme d’évaluation. Et cela fonctionne parce que Sierra détient le pouvoir de définir ce qui est « résolu ». Devin de Cognition a fait la même chose dans le logiciel, avec une « garantie de performance ». Ce n’est que lorsque vous êtes réellement intégré dans un système, et que vous avez la confiance, que vous pouvez offrir cette garantie sur les résultats.

Même dans le domaine des tokens — ce que tout le monde appelle une marchandise pure — leur performance n’est pas vraiment celle d’un produit. Les meilleures entreprises d’IA native concentrent leurs services sur une ou deux plateformes, comme Baseten ou Fireworks. Parce que chaque coût par token tend à se commercialiser, mais la fiabilité en flux réel, et l’accès stable à une puissance de calcul rare, ne deviennent pas des marchandises. Où fournir le service d’inférence, et quels modèles utiliser, sont deux choix distincts. La seule partie vraiment marchande dans l’inférence, c’est le prix.

Une objection courante est : les laboratoires sont tes fournisseurs, pourquoi ne pas déverser à perte leurs propres produits de première partie pour te faire tomber ? Ou retirer ton API pour prendre le marché ? C’est la version la plus extrême de ce sentiment de désespoir. Mais cela ne se produit que si le modèle est une opération à un seul joueur.

Il est évident que ce n’est pas le cas. Le niveau de la modélisation ressemble à une course à trois et demi joueurs, avec à côté des concurrents internationaux en retard d’environ six mois, et une alliance de développement cinq fois plus grande que l’année dernière. Les clients veulent de la compétition entre fournisseurs, et les laboratoires veulent des parts de marché, pas tuer une application spécifique.

On voit cela dans le marché de la compétition frontale entre laboratoires. Dans le domaine du consommateur, le meilleur modèle n’a jamais simplement gagné tout le marché. ChatGPT a maintenu sa position pendant des années de compétition réelle ; la part qu’il perd aujourd’hui va à Gemini, et la raison n’est pas la supériorité du modèle, mais la distribution via Android et la recherche. Anthropic est considéré comme ayant le meilleur modèle dans le marché des prédictions et l’atmosphère internet, mais il n’est presque pas un acteur principal dans le chat grand public, et construit sa présence dans les applications d’entreprise et de codage.

Si un modèle meilleur ne peut pas déloger ses concurrents dans ses applications clés, il ne pourra pas non plus facilement s’implanter dans un système hospitalier ou bancaire. Aujourd’hui, ce qui guide le choix du public, ce n’est pas seulement la capacité de codage. Si le niveau des modèles de pointe reste congestionné, alors la couche applicative au-dessus aura de la valeur.

Si une tâche ne peut pas être évaluée de l’extérieur, il faut que quelqu’un décide en interne ce qu’est une bonne réponse. Et cette décision, c’est tout le jeu. Si suffisamment de ces décisions sont écrites, cela devient un benchmark. Harvey a publié un benchmark dans le domaine juridique, Sierra a publié un benchmark pour les agents vocaux. La raison pour laquelle vous pouvez définir ce qui est « bon » dans un domaine, c’est parce que ce domaine vous est déjà familier. Et ces entreprises ont obtenu ce droit par la lutte dans l’adoption réelle.

Les évaluations qui déterminent la circulation de l’argent sont privées, et se forment au sein de chaque entreprise : cette entreprise, dans ce domaine, accepte quoi comme bon travail ? Et cette question n’est pas encore totalement résolue, car la profondeur du droit dépasse de loin tout benchmark public. OpenEvidence travaille à définir ce qu’est une réponse clinique sûre.

Tout cela n’est en réalité qu’une forme de « mesure » limitée, et concerne surtout ce qui est vrai, ce qui est bon. Ces jugements sont écrits, jusqu’à devenir des standards que tout le monde doit mesurer. Peu importe à quel point les laboratoires de modèles fondamentaux deviennent intelligents, ils ne peuvent pas inventer ces standards de rien, car cette autorité ne peut exister qu’au sein du domaine.

Ce pouvoir d’autorité se trouve souvent là où il existait déjà. Les avocats expérimentés écrivent des benchmarks juridiques. La définition d’une réponse clinique sûre revient aux médecins. Ce que signifie « résolu » est décidé par l’entreprise qui a déjà une relation client.

Les frontières d’absorption continueront de monter, car nous apprendrons sans cesse à mesurer plus de travaux, et ce qui peut être mesuré sera absorbé. La surface de ce qui est « impossible à entraîner » se réduit sous les pas de ceux qui se tiennent dessus, et on ne peut pas simplement s’arrêter à une position défendable. Il faut continuer à avancer vers des domaines encore non évalués, et réévaluer sans cesse les risques.

Sur une tâche étroite, avec vos données privées et votre propre système d’évaluation, vous pouvez atteindre le sommet de la pointe, et battre le modèle général dans des scénarios clés ; ce modèle spécialisé devient une barrière. Mais si vous vous battez avec la capacité des modèles génériques, c’est une guerre de capitaux, et vous perdrez face à ceux qui ont le plus de puissance de calcul. C’est aussi le piège dans lequel tombent souvent les entreprises avec un accès limité et des tâches très lisibles.

Quand une entreprise décide de former un modèle surpassant la pointe dans une large gamme de tâches pour survivre, la victoire dépend souvent de la taille de ses centres de données. La fin n’est pas un champion indépendant, mais une vente à un acteur disposant de suffisamment de puissance.

Tout cela est une stratégie défensive. La partie plus difficile, c’est l’attaque : décider d’abord ce que l’on veut construire. C’est ce que je cherche depuis un an, et je n’ai trouvé cela que trois fois. Le modèle ne peut pas aider dans ce domaine. Où le diriger, il le fera ; mais il ne peut pas vous dire ce qui mérite d’être dirigé. Il n’y a pas de benchmark pour cela, donc on ne peut pas l’entraîner.

C’est aussi pourquoi les géants ne prennent pas tout : ils protègent leur territoire, et le prochain vient de quelqu’un qui a déjà découvert une utilité avant eux. Peut-être que l’intention est une ressource plus rare que la puissance de calcul.

Ce sentiment de désespoir est en partie justifié. La coquille fine est effectivement en train d’être absorbée, et beaucoup de choses qui ressemblent à des entreprises aujourd’hui ne sont en réalité que des coquilles superficielles. Mais leur jugement sur « ce qui reste après absorption » est erroné. Le mécanisme est clair, mais la fin ne l’est pas.

Ce que je suis prêt à parier, c’est que cette direction continuera : l’intelligence deviendra encore moins chère, et la valeur continuera de glisser vers des endroits inaccessibles à quelques modèles. Ce qui ne peut pas être entraîné, c’est une valeur avec une histoire.

Entrer dans un de ces domaines, faire ces traductions peu reluisantes, puis commencer à définir ce qui est « bon » là-bas : c’est une voie que quelqu’un finira toujours par emprunter. La note la plus citée cette année dans les benchmarks n’est en réalité qu’une carte de territoire bientôt sans valeur, et une notification : une alerte à certains, leur droit de définir ce qu’est « bon » va leur être retiré.

[URL de l’article]

Cliquez pour découvrir les offres d’emploi de BlockBeats

Rejoignez la communauté officielle de BlockBeats :

Groupe Telegram : https://t.me/theblockbeats

Groupe de discussion Telegram : https://t.me/BlockBeats_App

Compte officiel Twitter : https://twitter.com/BlockBeatsAsia

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé