L'anxiété des investisseurs en IA en 2026 : lorsque les modèles dévorent tout, qu'est-ce qui reste de la barrière concurrentielle des startups ?

Question

Auteur : Sarah GuoTraduction : TechFlow Deep TideLecture de Deep Tide : Lorsque les grands modèles commencent à écraser l’humain dans tous les classements, les investisseurs sombrent dans un désespoir : à part Anthropic et Nvidia, y a-t-il autre chose qui vaut la peine d’être investi ? Cet investisseur de premier plan de la Silicon Valley utilise des données et des cas pour montrer que la véritable barrière protectrice ne figure pas dans les classements — elle se cache dans des endroits difficiles à mesurer par benchmark.Mi-2026, la version investisseur de la folie de l’IA est une forme de désespoir : il n’y a rien d’autre à investir, il faut tout mettre dans Anthropic et Nvidia puis rentrer chez soi.Je n’ai jamais ressenti cela. Je suis convaincu que les modèles sont plusieurs versions plus intelligents que moi, je suis prêt à acheter Anthropic et Nvidia au prix du marché, tous mes amis les plus intelligents croient que l’auto-amélioration va réussir rapidement — mais je ne ressens pas cette désespérance.Ce désespoir n’est pas stupide. La logique est la suivante : si les modèles s’améliorent continuellement dans tous les domaines, alors chaque entreprise construite dessus n’est qu’une fine couche d’emballage, prête à être absorbée, la seule valeur qui subsiste étant la puissance de calcul et les poids de pointe.Prenons l’exemple du logiciel, c’est le cas sur lequel les désespérés comptent le plus. Devin, lors de sa sortie en 2024, ne pouvait résoudre que 13 % des tâches sur les benchmarks standards, il était pratiquement ignoré. Un an et demi plus tard, le meilleur agent atteint plus de 80 points, il effectue de vrais travaux chez Goldman Sachs et dans l’armée américaine. Presque tout le monde tire la même mauvaise leçon : que les modèles mangent le génie logiciel. Mais lorsque les modèles dévorent la partie la plus facile à mesurer du génie logiciel, nous réalisons à nouveau ce que beaucoup savaient déjà — l’ingénierie a toujours résisté à la mesure, et la partie la plus facile à mesurer n’est peut-être pas la seule importante.Mert Demirer du MIT et ses collaborateurs ont finalement fourni des chiffres : parmi plus de 100 000 développeurs, le dernier agent de codage a augmenté la quantité de code écrit d’environ 180 %, tandis que la quantité de code réellement déployé a augmenté d’environ 30 %. La programmation devient moins chère. Le reste doit encore être fait par des humains, et c’est très important. Bien sûr, l’impact net reste impressionnant.Le benchmark est ce que vous pouvez mesurer, et ce que vous pouvez mesurer, c’est ce sur quoi vous pouvez entraîner le modèle. Par conséquent, les agents de codage sont les premiers à maturité : le compilateur est un vérificateur gratuit, le jeu de tests est un vérificateur gratuit, et lorsque la réponse peut s’auto-vérifier gratuitement, vous pouvez continuellement peaufiner jusqu’à le surpasser. Mais les tests ne vous disent jamais si cette modification est correcte pour une base de code vieille de dix ans, maintenue à la limite par un cron job que personne ne veut admettre avoir écrit, avec un pipeline déployé qui repose sur une vieille code.Cette correction ne peut pas être lue sur un classement, en réalité, elle ne peut être lue nulle part. Vous apprenez en faisant fonctionner le système dans le monde réel pendant suffisamment longtemps pour découvrir si un système complexe est efficace, et un modèle plus intelligent ne fait pas que le faire fonctionner plus vite. Personne ne fait de tests unitaires à l’échelle de Google puis ne croit au check vert ; on y croit parce qu’il a résisté à des années de charge réelle. Cette correction n’est pas seulement privée, c’est aussi une barrière protectrice lente que le capital ne peut pas faire tomber. Même les optimistes admettent que le temps ne peut pas sauter : Noam Brown, pionnier des modèles de raisonnement d’OpenAI, a récemment écrit que la seule façon fiable d’évaluer un agent sur une année pourrait être... de le faire fonctionner pendant un an.Comme le dit Gabe Pereyra, la véritable automatisation ne consiste pas seulement à améliorer le modèle. Elle consiste à faire bouger le produit, le modèle, le flux de travail et l’entreprise ensemble, et trois de ces quatre éléments avancent à la vitesse de l’organisation.Ce qui avance, c’est la partie inaccessible au benchmark : faire changer un partenaire sceptique dans sa façon de traiter les affaires, maintenir l’unité de l’équipe lors de la reconstruction. C’est pourquoi, lorsque nous recrutons un CEO, la capacité à gérer les personnes est aussi importante que l’analyse, et un modèle plus intelligent ne change pas ce poids. Le feedback est flou, la période est de plusieurs années, la confiance appartient à une personne. Je connais toutes les entreprises où tous les ingénieurs utilisent des modèles de codage de pointe, mais aucune ne change son organisation à cette vitesse. Un trimestre pour adopter un token, c’est une croissance incroyable ! Mais la reconstruction prend plusieurs années.Ce qui disparaît, c’est ce qui a de la valeur mais est invisible. Le travail précieux est structurellement invisible : tout ce que vous pouvez mettre dans un classement, vous pouvez l’entraîner dessus, donc tout ce qui est mesurable est en train de devenir une marchandise. Ce processus prend du temps et ne sera jamais totalement achevé, mais la direction ne changera jamais. Pour reprendre la terminologie de mon ami Matt MacInnis chez Rippling : les tokens dépensés pour répondre à des questions générales valent presque rien, car n’importe quel modèle peut y répondre, tandis que la valeur des tokens utilisés pour raisonner sur vos données d’entreprise est bien plus élevée, car il fait ce que vous souhaitez vraiment, pas seulement ce qui semble raisonnable.Le travail visible est consommé de deux côtés. En dessous, saturation des tâches : dès qu’un travail peut être vérifié à moindre coût, l’acheteur ne demande plus quel modèle l’a fait, mais combien ça coûte, et le travail revient au modèle open source ou distillé le moins cher cette semaine. Là où ils peuvent faire une différence, la rentabilité devient essentielle. En haut, les laboratoires tentent de faire dévorer leur propre infrastructure par le modèle. La récupération, le routage entre appels coûteux et peu coûteux, l’utilisation d’outils, même la stratégie de raisonnement, tous ces dispositifs qui entouraient le modèle sont intégrés dans les poids, jusqu’à ce que l’emballage devienne le modèle lui-même. C’est l’absorption de la pointe. La pression sur la rentabilité réduit aussi cette tendance : un agent général doit être prêt pour tout, ce qui coûte cher, alors qu’une application ciblée peut ajuster un flux de travail pour fonctionner avec une petite partie des tokens, et contrairement aux laboratoires qui vendent ces tokens, elle conserve la marge.Ainsi, on peut poser deux questions à tout type de travail : sa correction est-elle privée et coûte-t-elle cher à établir, cette vérité qui n’existe que dans les données internes ? Est-elle isolée, enfermée dans un système inaccessible ? En comparant cela au degré de saturation de la tâche, on obtient une matrice 2x2. Les tâches saturées avec réponses publiques sont des tokens marchands, elles sont open source. Les travaux de pointe avec réponses publiques, là où se trouve le benchmark de codage, sont le terrain des laboratoires, car quand l’évaluation est gratuite, ce n’est pas un avantage. La récompense se trouve dans le dernier coin, celui qui ne peut pas être entraîné : la correction n’existe que dans le domaine privé de la pointe, et vous pouvez la voir dans le cloud d’inférence des pionniers de l’IA native, où la majorité des tokens sont générés par des modèles sur mesure, pas par des modèles open source généralistes.Ce dernier coin a des murs de hauteurs variées. Un dépôt de code toy d’un seul développeur est portable et standardisé, donc la montée est courte. Les systèmes de production bancaires ne le sont pas, vous ne gagnez pas le droit root en étant 2 % plus malin sur SWE-Bench Verified.Les capacités absorbent beaucoup de choses, mais un meilleur modèle ne transforme pas la vérité fondamentale privée en vérité publique. Il ne détient pas de licence, ne signe pas de responsabilité, ne possède pas la documentation de l’entreprise, et lorsqu’il donne une erreur, il ne peut pas être poursuivi. L’intelligence n’est pas la limite ici. La licence l’est, la responsabilité aussi. Vous pouvez imaginer un modèle bien plus intelligent que n’importe qui, mais il doit toujours être autorisé à entrer, et quelqu’un doit toujours signer ce qu’il fait.Cette porte a une serrure et un verrou. La serrure, c’est l’environnement : vous ne pouvez vérifier si l’IA a fait quelque chose d’utile qu’après avoir été approuvé dans le système, après une revue de sécurité, une intégration, un contrat de signature. Le verrou, c’est l’utilisateur. Aujourd’hui, la majorité des médecins américains ouvrent OpenEvidence chaque jour, et aucune puissance de calcul ne peut acheter cela. Les laboratoires peuvent entraîner demain un modèle médical parfait, mais il ne pourra pas entrer dans la routine des médecins, ni dans le processus décisionnel de l’Université de Californie à San Francisco, car la confiance se construit lentement, sur la base de relations, nécessitant l’accord de l’utilisateur, pas l’élimination de leur gradient de descente.C’est aussi du travail. Une application gagne sa place dans le coin inaccessible en effectuant un travail discret : organiser la réalité privée de l’entreprise pour que le modèle puisse agir dessus, fournir des outils d’action au modèle, collaborer avec le client pour changer la réalité de ses employés. Une entreprise de traduction qui apporte la traduction est difficile à copier — et la traduction ne s’arrête jamais. L’intégration et la maintenance durent aussi longtemps que la relation, et c’est une équipe qui place des ingénieurs spécialisés et des outils aux côtés du client qui gagne.Par exemple, dans un cabinet d’avocats de premier plan spécialisé en fusions-acquisitions, près de mille transactions par an sont réalisées. Pour des raisons de confidentialité et autres, vous ne pouvez pas laisser des centaines d’assistants télécharger leurs fichiers clients sur leur bureau pour que l’agent général les lise, même si vous le pouviez, vous n’apprendriez que des fragments, corrigés un par un par chaque assistant, sans voir comment la transaction entière évolue. Les signaux importants résident dans le niveau transactionnel, qui a une forme : pour les fusions-acquisitions, il s’agit d’accords de confidentialité, de listes de clauses, de due diligence, d’accords d’achat, de documents annexes, de listes de livraison ; pour les litiges en propriété intellectuelle, ce sont des motions, des divulgations de preuves, des technologies existantes, d’autres motions. Chaque domaine a ses propres signaux, et ni les avocats ni les outils ne peuvent échanger entre eux. La véritable problématique d’un cabinet réside dans un niveau supérieur : faire fonctionner en parallèle chaque domaine, comme un associé principal gérant des centaines de dossiers simultanément, tout en introduisant de nouveaux dossiers et en formant les assistants. La transformation d’un tel cabinet n’est pas une tâche unique que l’on peut évaluer ; elle nécessite un opérateur qui utilise l’analyse de données, avec des objectifs flous, des retours incomplets, sur une longue période, dans un environnement en mouvement.Malheureusement, la valeur invisible est aussi difficile à vendre, pour la même raison qu’elle est difficile à marchandiser : une entreprise ne peut pas juger de l’impact de l’IA sur sa transformation à l’extérieur, tout comme un benchmark ne peut pas le faire. Ainsi, les entreprises les plus fortes cessent d’essayer de le prouver de l’extérieur, et entrent dans l’interne, en valorisant les résultats. Sierra facture ses agents pour résoudre les problèmes clients, mais ne facture pas quand ils délèguent à l’humain, ce qui fait que le prix devient une évaluation, valable seulement lorsque Sierra a une définition claire de “résolu”. Devin de Cognition adopte la même approche dans ses logiciels, en proposant une “garantie de performance”, qui ne peut être fournie que dans un système où vous êtes autorisé à entrer.Même pour les tokens de service, que tout le monde aime appeler des biens purs, ils ne fonctionnent pas comme des marchandises. Les meilleures entreprises IA natives concentrent leurs services sur un ou deux fournisseurs (Baseten ou Fireworks), car le coût par token est planifié pour devenir une marchandise, mais la fiabilité et l’accès garanti à une puissance de calcul rare ne le sont pas. Où vous servez dépend de votre choix quant aux modèles utilisés. Le prix est la seule partie du raisonnement qui fonctionne comme une marchandise.Une objection fréquente est : les laboratoires sont vos fournisseurs — pourquoi ne pas faire fonctionner leurs propres produits de première partie à perte pour vous exploiter, ou retirer votre API et prendre le marché ? C’est la version désespérée, qui ne fonctionne que si le modèle est un jeu à un seul joueur. Ce n’est pas le cas — cela ressemble plutôt à une course à trois et demi, avec des acteurs internationaux qui entraînent avec six mois de retard, et une alliance de développement cinq fois plus grande qu’il y a un an. Les clients veulent une compétition entre fournisseurs, et les laboratoires veulent plus de parts de marché que de faire mourir une application.On voit cela dans le marché où les laboratoires s’affrontent frontalement. Sur le chat grand public, le meilleur modèle n’a jamais simplement gagné. ChatGPT, après des années de compétition réelle, reste en tête, mais la part qu’il perd est en train d’être captée par Gemini, grâce à Android et à la recherche, pas à un meilleur modèle. Anthropic, qui est considéré comme la société avec le meilleur modèle dans le marché des prévisions (et l’atmosphère Internet), n’est presque pas un facteur dans le chat grand public, mais a construit sa propre activité dans l’entreprise et la programmation. Si un meilleur modèle ne peut pas voler des utilisateurs à ses concurrents dans les applications les plus essentielles, il ne pourra pas traverser les dossiers hospitaliers ou les responsabilités bancaires par intégration. Les choix du public aujourd’hui ne se basent pas seulement sur le codage. Si la pointe reste encombrée, ses couches supérieures seront précieuses.Si le travail ne peut pas être évalué de l’extérieur, quelqu’un à l’intérieur doit décider ce qui constitue une bonne réponse, et cette décision devient tout le jeu. Assez de ces décisions, écrites, deviennent un benchmark. Harvey a publié un benchmark pour le droit, Sierra pour les agents vocaux. En devenant celui qui est déjà utilisé dans un domaine, on obtient le droit de définir ce que signifie “bon” pour ce domaine, et ces entreprises ont gagné ce droit par leur adoption réelle.L’évaluation décisive, celle qui compte vraiment, est privée et dépend de chaque entreprise : cette entreprise, dans ce type d’affaire, acceptera quoi comme bon travail, ce n’est pas encore terminé, car la profondeur du droit rend tout test public insignifiant. OpenEvidence travaille à définir ce qu’est une réponse clinique sûre. Tout cela n’est pas une véritable mesure, c’est une question de jugement sur ce qui est vrai et ce qui est bon, écrit jusqu’à ce qu’il devienne la norme pour tous, et que les laboratoires fondamentaux, aussi intelligents soient-ils, ne puissent pas l’écrire, car cette autorité ne réside que dans le domaine lui-même. Cette autorité tend à rester là où elle est déjà installée. Des avocats expérimentés écrivent des benchmarks juridiques. La définition de réponses cliniques sûres revient aux médecins. Et “résolu” signifie que toute entreprise ayant déjà des clients peut dire ce que cela signifie.L’absorption de la pointe continue de monter, car nous apprenons à mesurer plus de travail, et ce qui est mesurable est absorbé. La surface non entraînable se réduit sous les pas de ceux qui la dominent, donc il n’y a pas de point défendable où se reposer. Vous progressez constamment vers ce qui ne peut pas encore être évalué, vous réassurez continuellement. Sur une tâche étroite, avec vos données privées et votre propre évaluation, vous pouvez atteindre la pointe et battre le modèle général dans des domaines importants, ce modèle spécialisé devenant une barrière protectrice. D’un autre côté, la compétition sur modèles généraux est une guerre de capitaux : vous perdrez face à ceux qui ont le plus de puissance de calcul, ce qui est le piège des entreprises ayant un accès superficiel et une visibilité limitée sur leurs tâches. Elle promet que, le jour où la formation dépassera la pointe pour survivre, le gagnant sera principalement déterminé par la taille des centres de données, et le résultat sera souvent une vente à ceux qui ont beaucoup de puissance de calcul, plutôt qu’un champion indépendant.Tout cela est une défense. Ce qui est plus difficile, c’est l’attaque, choisir ce qu’on construit en premier. C’est ce que j’ai cherché pendant un an, et que j’ai peut-être trouvé trois fois. Le modèle n’aide pas ici. Il fera tout ce que vous lui indiquez, mais ne peut pas vous dire ce qui vaut la peine d’être indiqué, vous ne pouvez pas le benchmarker, donc vous ne pouvez pas l’entraîner. C’est aussi la raison pour laquelle les entreprises existantes ne prennent pas tout : elles conservent leur territoire, la prochaine chose vient de ceux qui découvrent une utilité avant nous. Peut-être que l’intention est une ressource plus rare que la puissance de calcul.Le désespoir a raison à moitié. La fine couche d’emballage est effectivement en train d’être absorbée, et aujourd’hui, beaucoup de choses ressemblent à une fine couche d’emballage. Ce qui est faux, c’est ce qui reste. Le mécanisme est clair ; la destination ne l’est pas. Je parie sur la direction : l’intelligence devient de plus en plus bon marché, la valeur glisse vers des endroits où les modèles ne peuvent pas atteindre. Ce qui ne peut pas être entraîné, c’est la valeur historique. Donc, entrez dans un domaine, faites une traduction discrète, commencez à écrire ce que cela signifie d’être bon là-bas, car quelqu’un le fera. La mesure la plus citée cette année est une carte territoriale qui va bientôt devenir obsolète, et une notification sur qui va bientôt perdre le droit de dire ce qui est bon.

L'anxiété des investisseurs en IA en 2026 : lorsque les modèles dévorent tout, qu'est-ce qui reste de la barrière concurrentielle des startups ?

Sujets populaires

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

USIranConflictEscalates

GateLaunchesHongKongStockTrading

Épinglé