Cette semaine, lors de l’introduction en bourse de Cerebras, le dernier article de Ben Thompson explique tout : l’évolution de l’IA du « chat » vers « l’exécution autonome de tâches », le goulet d’étranglement de toute l’architecture des puces a changé.

Vous attendez la réponse en discutant avec Doubao ; lorsque Kimi Claw exécute une tâche pendant 5 heures pour vous, il se fiche que ce soit 3 secondes ou 30 secondes plus lent — ce qui compte, c’est la capacité à se souvenir du contexte, à continuer de travailler. À chaque étape, la mémoire de travail (KV Cache) s’étend d’un niveau. Le GPU est conçu pour « attendre devant l’écran » : la mémoire vidéo est inutilisée lors du pré-remplissage, la puissance de calcul reste inactive lors du décodage — la moitié du temps à attendre.

Ce qui bloque réellement, ce n’est pas la vitesse de calcul, mais la capacité de stockage et la rapidité de lecture. Plus fondamentalement, un agent à long terme transforme la KV Cache d’un cache temporaire en une mémoire de travail persistante. Celui qui pourra faire durer cette mémoire, la réutiliser davantage, et réduire ses coûts, détiendra la clé de l’économie des Agents.

C’est bien plus important que les scores de performance.

En ce qui concerne le moment de l’introduction en bourse, lancer une société de puces en mai 2026 serait presque idéal. Reuters a rapporté ce week-end :

Deux sources proches du dossier ont indiqué dimanche à Reuters que, sous l’effet de la demande croissante du marché pour les actions de cette société de puces IA, Cerebras Systems pourrait rapidement augmenter la taille et le prix de son IPO dès lundi. Selon ces sources, la société envisage de relever la fourchette de prix initiale de 115–125 dollars par action à 150–160 dollars, et d’étendre le nombre d’actions proposées de 28 millions à 30 millions ; ces informations n’étant pas publiques, les deux sources ont demandé à rester anonymes.

La hausse continue des actions dans le secteur des semi-conducteurs est principalement alimentée par l’IA — en particulier par la prise de conscience progressive que : les agents intelligents (Agents) vont absorber une quantité massive de puissance de calcul (Compute). Mais la proposition de Cerebras est plus large : jusqu’à présent, la narration autour de la puissance de calcul de l’IA se concentrait presque uniquement sur les GPU, Nvidia en tête ; à l’avenir, le paysage sera de plus en plus hétérogène (Heterogeneous).

L’ère des GPU

L’histoire de la GPU comme centre de l’IA est bien connue, en résumé :

Comme la peinture de pixels à l’écran est un processus parallèle — plus d’unités de traitement, plus rapide le rendu graphique —, le calcul de l’IA fonctionne de même : le nombre d’unités de traitement détermine directement la vitesse de calcul.
Nvidia a saisi cette double utilité : elle a rendu le processeur graphique programmable (Programmable), et avec CUDA, un écosystème logiciel complet, elle a démocratisé cette capacité de programmation pour tous les développeurs.
La différence fondamentale entre graphique et IA réside dans l’échelle du problème — les modèles sont bien plus volumineux que les textures dans un jeu vidéo. Cela a entraîné deux évolutions en chaîne : une augmentation spectaculaire de la capacité de mémoire à haute bande passante (HBM, High-bandwidth memory) sur chaque GPU ; et des avancées majeures dans l’interconnexion entre puces (Chip-to-chip networking), permettant à plusieurs puces de fonctionner comme un système adressable (Addressable system). Nvidia domine ces deux axes.
La principale utilisation du GPU a toujours été la formation (training), qui est particulièrement exigeante sur ces deux points. Chaque étape d’entraînement est hautement parallèle en interne, mais sérielle entre les étapes : avant de passer à la suivante, chaque GPU doit synchroniser ses résultats avec tous les autres. C’est pourquoi un modèle de trillion de paramètres doit tenir dans la mémoire totale de dizaines de milliers de GPU — et ces GPU doivent pouvoir communiquer comme une seule machine. Nvidia maîtrise ces deux défis : d’une part, en sécurisant l’approvisionnement en HBM avant tout le secteur ; d’autre part, en investissant massivement dans la technologie réseau.

Mais l’entraînement n’est pas la seule charge de travail de l’IA, il y a aussi l’inférence (Inference). Elle comporte trois phases principales :

1. Pré-remplissage (Prefill) : encoder tout ce que le grand modèle de langage (LLM) doit connaître dans un état compréhensible ; cette étape est hautement parallèle, la puissance de calcul est cruciale.

2. Décodage partie 1 (Decode Part 1) : lecture du KV cache (KV Cache) — qui stocke le contexte, y compris la sortie de la phase de pré-remplissage — pour le calcul d’attention. C’est une étape sérielle dont la bande passante est critique, et la demande en mémoire varie et augmente.

3. Décodage partie 2 (Decode Part 2) : calcul en mode forward sur les poids du modèle (Feed-forward computation) ; également une étape sérielle dépendant de la taille du modèle, avec des besoins en mémoire proportionnels.

Ces deux phases de décodage alternent à chaque couche du modèle (elles ne sont pas simplement séquentielles, mais intercalées), c’est-à-dire que l’inférence est limitée par la bande passante mémoire (Memory-bandwidth bound). À chaque token généré, il faut lire intégralement deux pools de mémoire : le KV cache, qui stocke le contexte et s’allonge avec chaque token, et les poids du modèle. Les deux doivent être lus en entier pour produire un seul token de sortie.

Le GPU répond parfaitement à ces trois besoins : fournir une puissance de calcul élevée pour le pré-remplissage, une mémoire HBM suffisante pour le KV cache et les poids, et via l’interconnexion entre puces, faire du pooling de mémoire lorsque la mémoire d’une seule puce est insuffisante. En d’autres termes, l’architecture adaptée à la formation l’est aussi à l’inférence — comme le montre l’accord entre SpaceX et Anthropic. Dans leur blog, Anthropic indique :

“Nous avons signé un accord pour utiliser toute la capacité de calcul du centre de données SpaceX Colossus 1. Cela nous donne plus de 300 mégawatts de capacité supplémentaire (plus de 220 000 GPU Nvidia). Cela améliorera directement la capacité de service pour les utilisateurs de Claude Pro et Claude Max.”

SpaceX conserve le Colossus 2 — probablement pour la formation de futurs modèles, mais aussi pour l’inférence des modèles existants. Leur capacité à faire ces deux tâches dans le même centre de données repose sur le fait que le modèle xAI n’est pas encore très utilisé ; ce qui est plus pertinent ici, c’est qu’ils peuvent le faire parce que la formation et l’inférence peuvent toutes deux s’effectuer sur GPU. En réalité, les GPU que signent Anthropic, initialement destinés à la formation, sont aussi utilisés pour l’inférence. La flexibilité des GPU est un avantage considérable.

Interpréter Cerebras

Ce que fabrique Cerebras est totalement différent. Bien que la taille d’un wafer en silicium soit de 300 mm, la « limite du masque » (Reticle limit) — la surface maximale qu’un outil de lithographie peut exposer sur le wafer — est d’environ 26 mm x 33 mm. C’est la limite de taille d’un seul chip ; dépasser cette limite nécessite de relier plusieurs chips via une « couche intermédiaire » (interposer layer), comme Nvidia l’a fait avec le B200. Cerebras a inventé une méthode de routage qui traverse les « lignes de découpe » (Scribe lines, c’est-à-dire les frontières entre zones exposées par le masque), transformant tout un wafer en un seul chip, sans nécessiter de liaison inter-chip relativement lente.

Le résultat : un seul chip doté d’une puissance de calcul impressionnante, avec une énorme SRAM et une vitesse d’accès incroyablement rapide. En comparaison : le dernier WSE-3 de Cerebras possède 44 GB de SRAM sur puce, avec un débit de 21 PB/s ; tandis que le H100 de Nvidia dispose de 80 GB de HBM, avec un débit de 3,35 TB/s. En d’autres termes, la mémoire du WSE-3, bien que moitié moins grande, offre une bande passante 6000 fois supérieure à celle du H100.

Ce contraste est fait parce que le H100 est actuellement le GPU le plus utilisé pour l’inférence, domaine dans lequel Cerebras excelle. On peut entraîner avec Cerebras, mais ses interconnexions entre puces ne sont pas très attrayantes, ce qui signifie que la majorité de la puissance et de la mémoire sur puce reste inutilisée ; ce qui compte vraiment, c’est la capacité à générer des flux de tokens à une vitesse bien supérieure à celle des GPU.

Cependant, la limite de l’inférence avec Cerebras est la même que pour l’entraînement : tant que toutes les données tiennent en mémoire sur puce, la vitesse est optimale ; lorsque la demande en mémoire dépasse cette capacité (modèles plus grands ou caches KV plus longs), Cerebras devient peu pertinent, surtout compte tenu de son coût. La technologie d’un seul wafer comme chip implique un taux de défaut élevé, ce qui augmente considérablement le coût.

Je pense néanmoins que ce type de puce Cerebras a un marché : la société insiste actuellement sur la vitesse comme critère pratique pour la programmation — l’inférence nécessitant la génération massive de tokens, ce qui revient à accélérer la vitesse de réflexion. Mais je crois que c’est une utilisation temporaire, pour des raisons que j’expliquerai plus tard. L’enjeu réel, c’est combien de temps il faut à l’humain pour obtenir une réponse. Avec la généralisation des appareils portables IA, la vitesse d’interaction (notamment par la voix, qui dépend de la rapidité de génération des tokens) aura un impact direct sur l’expérience utilisateur.

L’Agent d’inférence

J’ai déjà évoqué, dans l’ère des LLM, trois tournants :

1. ChatGPT a prouvé la utilité de la prédiction de tokens.

2. o1 a introduit la notion de raisonnement, c’est-à-dire que plus de tokens signifient de meilleures réponses.

3. Opus 4.5 et Claude Code ont lancé la première génération d’Agents, capables d’utiliser des modèles de raisonnement et un cadre intégrant l’utilisation d’outils, la vérification du travail, etc., pour accomplir des tâches concrètes.

Bien que tous relèvent du « raisonnement », je pense que la distinction entre fournir une réponse — que j’appelle « raisonnement de réponse » (Answer inference) — et exécuter une tâche — que j’appelle « raisonnement agentique » (Agentic inference) — devient de plus en plus claire. Le marché de Cerebras vise le « raisonnement de réponse » ; à long terme, je pense que l’architecture du « raisonnement agentique » sera radicalement différente, même de celle des GPU.

J’ai déjà dit que le raisonnement rapide pour la programmation n’est qu’un cas d’usage temporaire. Aujourd’hui, la programmation avec LLM nécessite encore une intervention humaine : définir la tâche, vérifier le code, soumettre une pull request (PR), etc. Mais il n’est pas difficile d’imaginer qu’à l’avenir, tout cela sera entièrement automatisé. Cela s’appliquera largement au travail des agents : leur véritable puissance ne réside pas dans l’assistance à l’humain, mais dans leur capacité à fonctionner de façon autonome, sans intervention humaine.

Par extension, la meilleure voie pour le raisonnement agentique sera très différente de celle du raisonnement de réponse. La vitesse de génération de tokens est cruciale pour la réponse ; mais la mémoire (Memory) est la priorité pour l’agent. L’agent a besoin de contexte, d’état, d’historique. Une partie de cette mémoire est dans le KV cache actif, une autre dans la mémoire principale ou sur SSD, et encore d’autres dans des bases de données, journaux, embeddings ou stockage d’objets. La clé : le raisonnement agentique ne sera plus simplement une réponse GPU à une question, mais la construction d’un système mémoire hiérarchisé complexe autour du modèle.

Ce qui est crucial, c’est que cette hiérarchie de mémoire dédiée à l’agent implique une compensation : échanger la vitesse contre la capacité. Et si le système fonctionne sans intervention humaine en temps réel, la lenteur n’est plus un problème central. Si un agent doit fonctionner toute la nuit, il se fiche de la latence pour l’utilisateur ; il veut simplement finir sa tâche. Si une nouvelle méthode de mémoire permet de réaliser des tâches complexes, un peu de latence devient acceptable.

Par ailleurs, si la latence n’est plus la priorité, la recherche de puissance extrême et de mémoire à haute bande passante (HBM) perd de son sens : si la latence n’est pas une contrainte dure, des mémoires plus lentes et moins chères (comme la DRAM traditionnelle) deviennent plus attractives. Si tout le système attend la réponse de la mémoire, il n’est pas nécessaire d’utiliser les processus de fabrication les plus avancés. Cela entraînera une révolution architecturale, mais ne signifiera pas la disparition des architectures actuelles :

La formation (Training) restera essentielle, Nvidia avec ses architectures à haute puissance, haute bande passante mémoire et réseaux rapides, continuera à dominer.
L’inférence de réponse (Answer inference) sera un marché important mais relativement modeste, où des solutions extrêmes comme Cerebras ou Groq seront très utiles.
L’inférence agentique (Agentic inference) se détachera progressivement du GPU. Les défauts du GPU — gaspillage de mémoire lors du pré-remplissage, gaspillage de puissance lors du décodage — seront mis en évidence. À la place, des systèmes à haute capacité, mémoire peu coûteuse, avec une puissance de calcul « suffisante » seront privilégiés. En fait, la vitesse d’exécution des outils par le CPU pourrait même surpasser celle du GPU.

Enfin, ces catégories ne seront pas de même taille ni de même importance. Plus précisément, l’inférence agentique sera le marché le plus vaste à l’avenir, car elle ne sera limitée ni par le nombre d’humains ni par le temps. Aujourd’hui, l’agent n’est qu’un « agent de réponse sophistiqué » ; demain, le véritable agent sera une machine qui exécute des ordres d’autres machines, avec un marché qui croît en fonction de la puissance de calcul, et non de la population.

Ce que l’inférence agentique nous apprend sur la puissance de calcul

Jusqu’ici, évoquer « l’expansion avec la puissance de calcul » impliquait souvent la supériorité de Nvidia. Mais, jusqu’à présent, l’avantage relatif de Nvidia repose largement sur la latence : ses puces sont extrêmement rapides, mais pour éviter que cette puissance ne reste inutilisée, il faut investir massivement dans l’expansion de la HBM et du réseau. Si la latence n’est plus la contrainte principale, le modèle Nvidia pourrait ne plus justifier le surcoût.

Nvidia a compris cette évolution : la société a lancé Dynamo, un cadre pour décomposer le raisonnement, et propose des produits comme la mémoire indépendante et les racks CPU pour augmenter la capacité de KV cache et accélérer l’appel d’outils, afin de maintenir ses GPU occupés. Mais, à terme, les grands fournisseurs de cloud pourraient, pour réduire les coûts et simplifier, chercher des alternatives aux GPU pour les tâches d’inférence agentique.

Par ailleurs, la Chine, malgré un manque de puissance de calcul de pointe, dispose de tout ce qu’il faut pour l’inférence agentique : GPU suffisamment rapides, CPU, DRAM, disques durs. Le vrai défi reste la puissance pour la formation ; mais la réponse à l’inférence de réponse pourrait être plus stratégique dans le contexte de la sécurité nationale (notamment militaire).

Un autre point de vue intéressant concerne l’espace (Space) : des puces plus lentes rendent la « data center spatiale » plus viable. D’abord, si la mémoire peut être externalisée, les puces peuvent être plus simples et plus fraîches. Ensuite, les processus plus anciens, avec leur taille physique plus grande, résistent mieux aux radiations spatiales. Troisièmement, leur consommation d’énergie étant plus faible, la dissipation thermique est facilitée. Enfin, la fabrication en processus plus ancien offre une fiabilité accrue, essentielle pour les satellites inaccessibles à réparer.

Le CEO de Nvidia, Jensen Huang, affirme souvent que « la loi de Moore est morte » ; il veut dire que la vitesse future dépendra d’innovations systémiques. Mais lorsque l’agent pourra agir de façon autonome, la leçon la plus profonde pourrait être : la loi de Moore n’a plus d’importance. La puissance supplémentaire que nous obtenons, c’est simplement la prise de conscience que notre puissance de calcul actuelle est « déjà suffisante » pour nos besoins.

NVDA-4,36%

XAI-5,39%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.89M Popularité
#
CLARITYActPassesSenateCommittee
1.75M Popularité
#
IsraelStrikesIranBTCPlunges
46.72K Popularité
#
#DailyPolymarketHotspot
965.4K Popularité
#
BitcoinVShapedReversalBack
227.12M Popularité

Épinglé

Comprendre Cerebras : la puissance de calcul favorise la réflexion IA, la mémoire habilite l'Agent à agir

L’ère des GPU

Interpréter Cerebras

L’Agent d’inférence

Ce que l’inférence agentique nous apprend sur la puissance de calcul

Sujets populaires

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Épinglé