Cette semaine, lors de l’introduction en bourse de Cerebras, le dernier article de Ben Thompson explique tout : l’évolution de l’IA du « chat » vers la « exécution autonome de tâches », le goulet d’étranglement de toute l’architecture des puces a changé.

Vous attendez la réponse en discutant avec Bean ; lorsque Kimi Claw exécute une tâche pendant 5 heures pour vous, il ne se soucie pas de savoir si c’est 3 secondes ou 30 secondes plus lent — ce qui compte, c’est la capacité à se souvenir du contexte, à continuer à travailler. À chaque étape, la mémoire de travail (KV Cache) s’étend d’un niveau. Le GPU est conçu pour « attendre devant l’écran » : la mémoire vidéo est inactive lors du pré-remplissage, la puissance de calcul est inactive lors du décodage — la moitié du temps à attendre.

Ce qui bloque réellement, ce n’est pas la vitesse de calcul, mais la capacité de stockage et la rapidité de lecture. Plus fondamentalement, un agent à long terme transforme le KV Cache d’un cache temporaire en une mémoire de travail persistante. Celui qui pourra faire durer cette mémoire, la réutiliser davantage, à moindre coût, détiendra la clé de l’économie des Agents.

C’est bien plus important que les scores de performance.

En ce qui concerne le moment de l’introduction en bourse, lancer une société de puces en mai 2026 serait presque idéal. Reuters a rapporté ce week-end :

Deux sources proches du dossier ont indiqué dimanche à Reuters que, sous l’effet de la demande croissante du marché pour les actions de cette société de puces IA, Cerebras Systems pourrait rapidement augmenter la taille et le prix de son IPO dès lundi. Selon ces sources, la société envisage de relever la fourchette de prix initiale de 115–125 dollars par action à 150–160 dollars, et d’étendre le nombre d’actions offertes de 28 millions à 30 millions ; ces informations n’étant pas publiques, les sources ont demandé à rester anonymes.

La hausse continue des actions dans le secteur des semi-conducteurs est principalement alimentée par l’IA — en particulier par la prise de conscience progressive du marché : les agents intelligents (Agents) vont absorber une quantité massive de puissance de calcul (Compute). Mais la proposition de Cerebras est plus large : jusqu’à présent, la narration autour de la puissance de calcul de l’IA concernait presque uniquement les GPU, Nvidia ; à l’avenir, le paysage sera de plus en plus hétérogène (Heterogeneous).

L’ère des GPU

L’histoire de la domination des GPU dans l’IA est bien connue, en résumé :

Comme le rendu de pixels à l’écran est un processus parallèle — plus il y a d’unités de traitement, plus le rendu est rapide —, le calcul IA fonctionne de même : le nombre d’unités de traitement détermine directement la vitesse de calcul.
Nvidia a saisi cette double utilité : elle a rendu le processeur graphique programmable (Programmable), et avec CUDA, tout un écosystème logiciel complet, elle a démocratisé cette capacité de programmation pour tous les développeurs.
La différence fondamentale entre graphique et IA réside dans l’échelle du problème — les modèles sont bien plus volumineux que les textures de jeux vidéo. Cela a entraîné deux évolutions en chaîne : une augmentation spectaculaire de la capacité de mémoire à haute bande passante (HBM, High-bandwidth memory) sur chaque GPU ; et des avancées majeures dans la connectivité entre puces (Chip-to-chip networking), permettant à plusieurs puces de fonctionner comme un système adressable (Addressable system). Nvidia domine ces deux axes.
La principale utilisation du GPU reste la formation (training), qui est particulièrement exigeante sur ces deux aspects. Chaque étape d’entraînement est hautement parallèle en interne, mais sérielle entre les étapes : avant de passer à la suivante, chaque GPU doit synchroniser ses résultats avec tous les autres. C’est pourquoi un modèle de trillion de paramètres doit tenir dans la mémoire totale de dizaines de milliers de GPU — et ces GPU doivent pouvoir communiquer comme une seule machine. Nvidia a maîtrisé ces deux défis : d’une part, en sécurisant l’approvisionnement en HBM avant tout le secteur ; d’autre part, en investissant massivement dans la technologie réseau.

Mais l’entraînement n’est pas la seule charge de travail de l’IA, il y a aussi l’inférence (Inference). Elle comporte trois phases principales :

1. Pré-remplissage (Prefill) : encoder tout ce que le grand modèle de langage (LLM) doit connaître dans un état compréhensible ; cette étape est hautement parallèle, la puissance de calcul est cruciale.

2. Décodage partie 1 (Decode Part 1) : lecture du KV cache (KV Cache) — qui stocke le contexte, y compris la sortie de la phase de pré-remplissage — pour le calcul d’attention. C’est une étape sérielle dont la bande passante est critique, et la demande en mémoire varie et augmente.

3. Décodage partie 2 (Decode Part 2) : calcul en avant (Feed-forward) sur les poids du modèle ; également une étape sérielle dépendant de la taille du modèle, avec des besoins en mémoire proportionnels.

Ces deux phases de décodage alternent à chaque couche du modèle (elles ne sont pas simplement séquentielles, mais intercalées), ce qui signifie que l’inférence est limitée par la bande passante mémoire (Memory-bandwidth bound). À chaque token généré, il faut lire intégralement deux pools de mémoire : le KV cache, qui stocke le contexte et s’allonge avec chaque token, et les poids du modèle. Les deux doivent être lus en entier pour produire un seul token de sortie.

Les GPU répondent parfaitement à ces trois besoins : fournir une puissance de calcul élevée pour le pré-remplissage, une mémoire HBM suffisante pour le KV cache et les poids, et permettre la mise en mémoire partagée via l’interconnexion entre puces lorsque la mémoire d’une seule GPU est insuffisante. En d’autres termes, la même architecture adaptée à la formation convient aussi à l’inférence — comme le montre l’accord entre SpaceX et Anthropic. Dans leur blog officiel, Anthropic indique :

« Nous avons signé un accord pour utiliser toute la capacité de calcul du centre de données SpaceX Colossus 1. Cela nous donne plus de 300 mégawatts de capacité supplémentaire (plus de 220 000 GPU Nvidia). Cela améliorera directement la capacité de service de Claude Pro et Claude Max. »

SpaceX conserve le Colossus 2 — probablement pour la formation de futurs modèles, mais aussi pour l’inférence des modèles existants. Leur capacité à faire ces deux tâches dans le même centre de données repose sur le fait que le modèle xAI utilisé actuellement n’est pas très volumineux ; et surtout, que la formation et l’inférence peuvent toutes deux s’effectuer sur GPU. En réalité, les GPU que signent Anthropic, initialement destinés à la formation, sont aussi utilisés pour l’inférence. La flexibilité des GPU est un atout énorme.

Interpréter Cerebras

Ce que fabrique Cerebras est totalement différent. Bien que la taille du wafer en silicium soit de 300 mm, la « limite du masque » (Reticle limit) — c’est-à-dire la surface maximale qu’une étape de lithographie peut exposer sur le wafer — est d’environ 26 mm x 33 mm. C’est la limite de taille effective d’un seul chip ; dépasser cette limite nécessite de relier plusieurs chips via une couche intermédiaire, comme Nvidia l’a fait avec le B200. Cerebras a inventé une méthode de routage qui traverse les « lignes de découpe » (Scribe lines, c’est-à-dire les frontières entre zones exposées par le masque), permettant de fabriquer une seule puce à partir d’un wafer entier, sans interconnexion lente entre chips.

Résultat : une puce dotée d’une puissance de calcul impressionnante, avec une quantité massive de SRAM et une vitesse d’accès incroyablement rapide. En comparaison : le dernier WSE-3 de Cerebras possède 44 Go de SRAM sur la puce, avec une bande passante de 21 PB/s ; tandis que le H100 de Nvidia dispose de 80 Go de HBM, avec une bande passante de 3,35 TB/s. En d’autres termes, la mémoire du WSE-3, bien que moitié moins volumineuse, offre une bande passante 6000 fois supérieure à celle du H100.

Ce qui explique la comparaison entre WSE-3 et H100, c’est que le H100 est actuellement le GPU le plus utilisé pour l’inférence, et que Cerebras excelle dans ce domaine. On peut entraîner avec Cerebras, mais la connectivité entre chips n’est pas aussi attrayante, ce qui signifie que la majorité de la puissance et de la mémoire sur la puce restent sous-utilisées ; la véritable force réside dans sa capacité à générer des flux de tokens à une vitesse bien supérieure à celle des GPU.

Cependant, la limite de l’entraînement s’applique aussi à l’inférence : tant que toutes les données tiennent dans la mémoire de la puce, la vitesse de Cerebras est optimale ; lorsque la demande en mémoire dépasse cette limite (modèles plus volumineux ou caches KV plus longs), Cerebras devient peu pertinent, surtout compte tenu de son coût. La technologie « wafer entier comme puce » implique un taux de fabrication élevé, ce qui rend la production coûteuse.

Je pense néanmoins que le style de puces Cerebras a un marché : la société insiste actuellement sur la vitesse comme critère pratique pour la programmation — l’inférence nécessitant la génération massive de tokens, une vitesse accrue équivaut à une pensée plus rapide. Mais je crois que c’est une utilisation temporaire, pour des raisons que j’expliquerai plus tard. La vraie question est : combien de temps faut-il à l’humain pour obtenir une réponse ? Avec la généralisation des appareils portables IA, la vitesse d’interaction (notamment vocale, dépendant de la vitesse de génération des tokens) aura un impact direct sur l’expérience utilisateur.

L’Agent d’inférence (Agentic Inference)

J’ai déjà évoqué, dans l’ère des LLM, trois tournants :

1. ChatGPT a prouvé la utilité de la prédiction de tokens.

2. o1 a introduit la notion de raisonnement, c’est-à-dire que plus de tokens donnent de meilleures réponses.

3. Opus 4.5 et Claude Code ont lancé les premiers Agents pratiques, capables d’utiliser des modèles de raisonnement et un cadre intégrant l’utilisation d’outils, la vérification du travail, etc., pour accomplir des tâches concrètes.

Bien que tous relèvent du « raisonnement », je pense que la distinction entre fournir une réponse — que j’appelle « raisonnement de réponse » (Answer inference) — et exécuter une tâche — que j’appelle « raisonnement agentique » (Agentic inference) — devient de plus en plus claire. Le marché de Cerebras vise le « raisonnement de réponse » ; à long terme, je pense que l’architecture du « raisonnement agentique » sera radicalement différente, même opposée, à celle de Cerebras ou des GPU.

J’ai déjà mentionné que le raisonnement rapide pour la programmation n’est qu’un cas d’usage temporaire. Aujourd’hui, la programmation avec LLM nécessite encore une intervention humaine : définir la tâche, vérifier le code, soumettre une pull request (PR), etc. Mais il n’est pas difficile d’imaginer qu’à l’avenir, tout cela sera entièrement automatisé. Cela s’appliquera largement au travail des agents : leur véritable puissance ne réside pas dans l’assistance à l’humain, mais dans leur capacité à fonctionner de manière autonome, sans intervention humaine.

Par extension, la meilleure voie pour résoudre le raisonnement agentique sera très différente du raisonnement de réponse. La priorité du raisonnement de réponse est la vitesse de token ; celle du raisonnement agentique, c’est la mémoire (Memory). L’agent a besoin de contexte, d’état, d’historique. Une partie de cette mémoire est dans le KV cache actif, une autre dans la mémoire principale ou sur SSD, et encore d’autres dans des bases de données, journaux, embeddings ou stockage d’objets. La clé : le raisonnement agentique ne sera plus une réponse GPU à une question, mais la construction d’un système mémoire hiérarchisé complexe autour du modèle.

Ce qui est crucial, c’est que cette hiérarchie de mémoire dédiée à l’agent implique un compromis inévitable : échanger la vitesse contre la capacité. Et si le système ne nécessite pas d’intervention humaine en temps réel, la lenteur n’est plus un problème central. Si un agent doit fonctionner toute la nuit, il se fiche de la latence pour l’utilisateur ; il veut simplement finir sa tâche. Si une nouvelle méthode de mémoire permet de rendre possibles des tâches complexes, un certain retard sera acceptable.

Par ailleurs, si la latence n’est plus la priorité, la recherche de puissance extrême et de mémoire à haute bande passante (HBM) devient moins pertinente : si la latence n’est pas une contrainte dure, des mémoires plus lentes et moins chères (comme la DRAM traditionnelle) deviennent plus attractives. Si tout le système attend principalement la réponse de la mémoire, la puce n’a pas besoin d’un procédé de fabrication de pointe. Cela entraînera une révolution architecturale, mais ne signifiera pas la disparition des architectures actuelles :

La formation (Training) restera essentielle, Nvidia, avec ses architectures à haute puissance, haute bande passante et réseau rapide, continuera à dominer.
Le « raisonnement de réponse » (Answer inference) sera un marché important mais relativement restreint, où des solutions extrêmes comme Cerebras ou Groq seront très utiles.
Le raisonnement agentique (Agentic inference) se détachera progressivement du GPU. La faiblesse des GPU lors du pré-remplissage (perte de mémoire) et du décodage (perte de puissance de calcul) sera mise en évidence. À la place, des systèmes à grande capacité, à faible coût, avec une puissance de calcul « suffisante » seront privilégiés. En fait, la vitesse de traitement des outils par le CPU pourrait même surpasser celle du GPU.

De plus, ces catégories ne seront pas de même ampleur ni de même importance. Plus précisément, le raisonnement agentique sera le marché le plus important à l’avenir, car il ne sera pas limité par le nombre d’humains ou le temps. Aujourd’hui, l’agent intelligent n’est qu’un « raisonnement de réponse sophistiqué » ; demain, le véritable agent intelligent sera une machine qui exécute des ordres d’autres machines, avec un marché qui croît en fonction de la puissance de calcul, et non de la population.

Implications du raisonnement agentique

Jusqu’ici, évoquer « l’expansion avec la puissance de calcul » impliquait surtout la confiance dans Nvidia. Mais leur avantage relatif repose en grande partie sur la latence : leurs puces sont extrêmement rapides, mais pour éviter que la puissance ne soit gaspillée, il faut d’énormes investissements pour étendre la HBM et le réseau. Si la latence n’est plus une contrainte essentielle, le modèle Nvidia pourrait ne plus justifier le surcoût.

Nvidia a compris cette évolution : la société a lancé Dynamo, un cadre pour décomposer le raisonnement, et propose des produits comme la mémoire indépendante et les racks CPU pour augmenter la capacité de KV et accélérer l’appel d’outils, afin de maintenir ses GPU occupés. Mais à terme, les grands fournisseurs de cloud pourraient, pour réduire les coûts et simplifier, chercher des alternatives aux GPU pour les tâches d’agentification.

Par ailleurs, la Chine, malgré un déficit en puissance de calcul de pointe, dispose de tout ce qu’il faut pour l’agentification : GPU rapides, CPU performants, DRAM et disques durs. Le vrai défi reste la puissance pour la formation ; mais la réponse à l’inférence pourrait être encore plus stratégique, notamment pour la sécurité nationale et les applications militaires.

Un autre angle intéressant est celui de l’espace (Space) : des puces plus lentes rendent la « data center spatiale » plus viable. D’abord, si la mémoire peut être externalisée, les puces peuvent être plus simples et plus fraîches. Ensuite, les processus plus anciens, avec des dimensions physiques plus grandes, résistent mieux aux radiations spatiales. Troisièmement, leur consommation d’énergie étant plus faible, la dissipation thermique est facilitée. Enfin, la fabrication en processus plus ancien offre une fiabilité accrue, essentielle pour les satellites inaccessibles à réparer.

Le CEO de Nvidia, Jensen Huang, dit souvent que « la loi de Moore est morte » ; il veut dire que la vitesse future dépendra d’innovations systémiques. Mais lorsque l’agent pourra fonctionner de manière autonome, la leçon la plus profonde pourrait être : la loi de Moore n’a plus d’importance. La puissance de calcul supplémentaire, c’est simplement réaliser que notre puissance actuelle est déjà « suffisante ».

NVDAX-4,96%

XAI-5,28%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.84M Popularité
#
CLARITYActPassesSenateCommittee
3.39M Popularité
#
IsraelStrikesIranBTCPlunges
46.85K Popularité
#
#DailyPolymarketHotspot
958.02K Popularité
#
BitcoinVShapedReversalBack
227.02M Popularité

Épinglé

Comprendre Cerebras : la puissance de calcul favorise la réflexion IA, la mémoire habilite l'agent à agir

L’ère des GPU

Interpréter Cerebras

L’Agent d’inférence (Agentic Inference)

Implications du raisonnement agentique

Sujets populaires

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Épinglé