L'ère de la déduction par IA est-elle vraiment arrivée ? La reconstruction de la puissance de calcul tripartite entre GPU, CPU et ASIC

Question

22 juin 2026, le secteur des semi-conducteurs américains connaît une hausse généralisée — l'indice Philadelphia Semiconductor enregistre une hausse de 6,42 % en une seule journée, Intel progresse de plus de 10 % suite à l'annonce de sa collaboration avec Apple pour la fabrication de puces, l'ADR de TSMC grimpe de 6,94 % pour clôturer à 462,12 dollars, et Nvidia augmente d'environ 3 %. Derrière cette euphorie, se cache une tendance sectorielle en accélération : la demande en puissance de calcul pour l'IA est passée d'une orientation entraînement à une orientation inférence.

Selon des analyses sectorielles, la part de l'inférence dans la demande totale de puissance de calcul IA est passée d'environ un tiers en 2023 à deux tiers en 2026, et devrait atteindre entre 70 % et 85 % d'ici 2028 à 2030. Ce changement structurel redéfinit le principal champ de compétition des puces — passant de « qui entraîne le plus vite » à « qui offre le coût total d'inférence le plus bas et le débit le plus élevé ».

Le marché mondial des puces d'inférence IA devrait valoir 85,4 milliards de dollars en 2024, avec une croissance prévue de 105,47 milliards de dollars en 2025 à 570,77 milliards de dollars en 2033, avec un taux de croissance annuel composé de 23,5 % durant cette période. En particulier, le marché des puces d'inférence IA cloud est estimé à 102,19 milliards de dollars en 2025, devant atteindre 118,9 milliards en 2026, et pourrait atteindre 320,98 milliards de dollars d’ici 2032. Par ailleurs, la taille du marché mondial des systèmes de puces IA en périphérie (incluant inférence et entraînement) devrait passer de 34,4 milliards de dollars en 2026 à 96 milliards en 2031.

Dans cette phase d’expansion, la dynamique entre différents types de puces évolue de manière subtile mais profonde. Les GPU restent le plus grand segment de marché, soutenus par la demande à la fois pour l’entraînement et l’inférence, avec une croissance annuelle composée prévue de 20 % jusqu’en 2031. Cependant, les ASIC IA sont considérés par plusieurs institutions comme le segment à croissance la plus rapide. Selon des analystes de JP Morgan, le marché des ASIC IA numériques pourrait atteindre entre 60 et 70 milliards de dollars d’ici 2026, avec un taux de croissance annuel supérieur à 40-50 % dans les années à venir.

Ce qui mérite également une attention particulière, c’est le retour en force du CPU. Ces trois dernières années, le CPU occupait une position marginale dans la narration IA, mais l’explosion de la demande en inférence commence à changer cette configuration.

Pourquoi le CPU revient-il sur le devant de la scène

L’inférence et l’entraînement IA diffèrent fondamentalement en termes de logique de calcul. L’entraînement consiste en un processus massif de calcul matriciel parallèle — des dizaines de trillions d’opérations en virgule flottante peuvent être effectuées simultanément sur des dizaines de milliers de cœurs GPU, ce qui constitue le domaine de prédilection des GPU. Mais l’inférence, notamment dans le cadre de l’IA agentique (Agentic AI), implique l’orchestration de tâches, l’appel d’outils, des jugements logiques multi-étapes et des décisions séquentielles. Ces charges de travail ne sont pas purement parallèles, mais dépendent fortement de la capacité du CPU à gérer une logique complexe et un traitement séquentiel.

Une étude menée par Georgia Tech et Intel indique que dans les scénarios d’IA agentique, entre 50 % et 90 % de la latence provient du CPU, et non du matériel de calcul — car les grands modèles doivent faire appel à des plugins, effectuer des recherches en ligne, traiter des logiques multi-étapes, tout cela étant orchestré par le CPU. Nvidia elle-même a reconnu cette réalité en mars 2026 : son dirigeant Dion Harris a déclaré publiquement que « le CPU devient le goulot d’étranglement dans le flux de travail IA » — une déclaration surprenante venant d’une entreprise qui prône que « le GPU est le seul chip nécessaire pour l’IA ».

L’évolution des ratios de configuration illustre aussi cette tendance. Lors de la phase d’entraînement, la configuration CPU-GPU est souvent extrême, avec un ratio de 1:8, le GPU supportant la majorité de la charge de calcul. Mais à l’ère de l’inférence, selon un rapport de TrendForce, ce ratio se rapproche rapidement d’un équilibre de 1:1 à 1:2. Lors de la conférence téléphonique sur les résultats du premier trimestre 2026, le CEO d’Intel, Chen Lihua, a indiqué que la charge d’entraînement nécessite généralement 7 à 8 GPU pour 1 CPU, tandis que la charge d’inférence s’est resserrée à 3-4 GPU pour 1 CPU, avec une tendance à évoluer vers un équilibre de 1:1.

En se basant sur l’estimation de Jensen Huang, CEO de Nvidia : chaque GW de centre de données nécessite environ 300 000 GPU Rubin, tandis qu’en convertissant en CPU ARM avec 136 cœurs par CPU, il faut environ 221 000 CPU par GW. La nouvelle répartition CPU-GPU tourne donc autour de 1:1,4, ce qui marque une nette progression du rôle du CPU par rapport à l’époque où le GPU dominait.

La barrière naturelle du GPU et les défis de l’inférence

Malgré la reprise du CPU, le GPU conserve une position incontournable dans l’inférence IA, principalement en raison de la mémoire et du débit parallèle.

Dans le processus d’inférence LLM, générer chaque token nécessite la lecture de centaines de millions à plusieurs milliards de paramètres — une tâche typiquement intensive en mémoire. La solution CPU dépend de la mémoire DDR du système, avec une bande passante généralement comprise entre 50 et 100 GB/s ; à l’inverse, le GPU utilise de la mémoire GDDR6X ou HBM, avec une bande passante pouvant dépasser 800 GB/s, et certains GPU haut de gamme avec HBM2e atteignent 1,5 TB/s, soit 20 fois celle du CPU. Lors de l’inférence du modèle Llama 3.1 8B, la vitesse d’un seul CPU est d’environ 819 tokens par seconde, contre 46 841 tokens par seconde pour un cluster de 8 GPU. Lorsqu’on augmente la charge simultanée, la performance CPU chute brutalement à 257 tokens/sec, tandis que le cluster GPU de 8 cartes conserve une performance quasi inchangée.

En termes de densité de calcul, le GPU, avec ses milliers de cœurs CUDA, supporte des formats à faible précision comme FP4 ou FP8, avec une puissance de calcul pouvant atteindre plusieurs centaines de TFLOPS, alors que le CPU plafonne généralement à 1-10 TFLOPS en FP32.

Ces chiffres montrent que dans les scénarios d’inférence à haute capacité et forte concurrence — comme les services cloud IA à grande échelle — le GPU reste la solution optimale. La position dominante de Nvidia dans ce domaine n’a pas encore été remise en question. Selon SemiAnalysis, au premier trimestre 2026, Nvidia détient 92 % du marché des puces d’entraînement IA et 78 % de celui des puces d’inférence. IDC estime qu’elle contrôle environ 81 % du marché des puces IA. Le marché des accélérateurs IA, estimé à environ 160 milliards de dollars en 2025, devrait dépasser 200 milliards en 2026, avec deux tiers des dépenses consacrées à l’inférence.

Cependant, la part du GPU dans l’inférence fait face à plusieurs pressions : le retour du CPU, la compétition avec des ASIC spécialisés, et la réalité des coûts.

La contre-attaque des fabricants de CPU dans l’inférence

La réévaluation de la valeur du CPU dans l’inférence s’est traduite par une dynamique de marché tangible.

Le marché des processeurs pour centres de données, stimulé par la demande croissante pour les charges de travail génératives IA, connaît une croissance rapide, passant de 215 milliards de dollars en 2025 à 656 milliards en 2031. Selon Guohai Securities, les centres de données ultra-massifs entrent dans une « phase de mise à niveau », avec une croissance prévue de 25 % des livraisons de CPU serveurs en 2026.

AMD bénéficie particulièrement de cette tendance. La demande pour ses serveurs IA a dopé ses ventes de CPU EPYC, dont la 5e génération, Turin, occupe une part importante du marché des CPU serveurs. En 2026, la croissance du marché des CPU serveurs d’AMD pourrait atteindre au moins 50 %. Selon Bernstein, les ventes de la gamme EPYC d’AMD pourraient augmenter de 30 % en 2026. Sur le marché des CPU pour centres de données, début 2026, Intel détient environ 60 % de parts de marché, AMD environ 24 %, et Nvidia environ 6 %. AMD, avec ses accélérateurs Instinct, concurrence Nvidia sur le marché des GPU IA, lui conférant une position unique dans cette nouvelle ère.

Intel ajuste également sa stratégie. Lors du Computex de juin 2026, le nouveau CEO d’Intel, Chen Lihua, a annoncé avec la technologie 18A et une architecture déconnectée à l’échelle du rack que le CPU reprendrait le rôle principal dans l’inférence IA, passant d’un modèle « tout-en-un » à une approche « Lego ». La technologie AMX intégrée dans les processeurs Xeon permettrait d’accélérer l’inférence pour des modèles de grande taille, sans nécessiter de GPU ou autres accélérateurs IA.

Le changement le plus symbolique concerne Nvidia elle-même. La société, qui a défini l’ère de l’IA par ses GPU, a lancé en 2026 les lignes de CPU Grace et Vera, cette dernière étant spécifiquement conçue pour l’inférence et l’IA agentique. Nvidia prévoit que ses revenus CPU atteindront 20 milliards de dollars en 2026. En 2026 également, Nvidia et Arm ont lancé leurs propres CPU indépendants, marquant l’entrée officielle de ce géant GPU dans la compétition CPU.

L’essor des ASIC et des puces spécialisées : une troisième voie

Au-delà du dualisme GPU-CPU, les ASIC (circuits intégrés spécifiques) deviennent la variable à croissance la plus rapide dans le marché de l’inférence.

TD Cowen prévoit que la part des accélérateurs commerciaux passera d’environ 91 % en 2025 à environ 75 % en 2030, tandis que la part des ASIC sur mesure passera de 9 % à 25 %. La livraison de serveurs ASIC devrait croître de 44,6 % en 2026, contre 16,1 % pour les serveurs GPU, soit trois fois moins.

Les grands fournisseurs de cloud accélèrent leur développement interne de puces d’inférence. Google TPU, AWS Inferentia, Meta MTIA, et le LPU (Language Processing Unit) de Groq, tous optimisés pour l’inférence, se multiplient. Broadcom, au deuxième trimestre 2026, a généré 10,8 milliards de dollars de revenus IA, en hausse de 143 %, avec une prévision annuelle de 56 milliards, en croissance de 180 %. Broadcom prévoit de détenir environ 60 % du marché des ASIC IA sur mesure.

Ce mouvement indique que le marché des puces d’inférence évolue d’un « GPU généraliste » vers une configuration « GPU + CPU + ASIC » diversifiée. Les GPU assurent l’entraînement intensif et la grande inférence, le CPU orchestre la gestion des tâches et le contrôle système, et les ASIC offrent une efficacité énergétique extrême pour des charges spécifiques.

La refonte des coûts et de l’économie de l’inférence

Le choix des puces pour l’inférence revient finalement à une question centrale : quel est le coût par million de tokens inférés ?

En entraînement, la précision du modèle et la durée de formation sont prioritaires, avec une tolérance au coût plus élevée. Mais en inférence, il s’agit d’une activité continue et à haute fréquence — chaque appel API, chaque requête utilisateur engendre un coût direct. La compétition pour les puces d’inférence se déplace donc de la « performance absolue » vers le « débit efficace par unité de coût ».

Les solutions GPU sont plus coûteuses en matériel. Par exemple, un AMD MI300X coûte environ 10 000 à 15 000 dollars, contre 25 000 à 40 000 dollars pour un Nvidia H100. Mais leur coût par unité de puissance de calcul est inférieur — par exemple, pour une instance cloud à la demande, le coût par seconde de génération de tokens avec GPU est inférieur de 40 à 60 % à celui avec CPU. La solution CPU a l’avantage de ne pas nécessiter d’investissement matériel supplémentaire, adaptée aux scénarios à faible concurrence et faible latence.

Cependant, à mesure que l’échelle de l’inférence augmente, le coût marginal du CPU croît plus rapidement — avec l’augmentation du nombre de requêtes simultanées, le CPU doit gérer la planification par partage de temps, avec des coûts de commutation de contexte qui croissent exponentiellement. Cela signifie qu’à grande échelle, le déploiement d’inférence, le GPU ou l’ASIC, avec leur investissement initial élevé, peut offrir un meilleur ROI à long terme grâce à un débit supérieur et un coût unitaire plus faible.

Conclusion

La part de la puissance de calcul pour l’inférence passant de un tiers à deux tiers, cette évolution traduit une transformation profonde de la logique de compétition dans l’industrie des puces.

Pour Nvidia, sa domination dans le marché de l’entraînement (environ 90 % de parts) restera probablement intacte à court terme, mais la compétition dans le marché de l’inférence sera plus féroce. Selon New Street Research, la part de marché de Nvidia dans l’inférence pourrait chuter à 20-30 % d’ici 2028. Même dans une perspective plus conservatrice, comme celle de Bloomberg Intelligence, qui prévoit que Nvidia conservera 70-75 % du marché d’ici 2030, la croissance des expéditions d’ASIC, dépassant largement celle des GPU, est une tendance confirmée.

Pour AMD et Intel, la reprise de la demande en CPU pour l’inférence représente une opportunité structurelle. AMD, avec sa double stratégie EPYC CPU et Instinct GPU, et Intel, avec la nouvelle génération de processeurs en technologie 18A, tentent de saisir cette fenêtre.

Pour les fournisseurs de cloud et les développeurs d’applications IA, l’augmentation des options matérielles offre un espace accru pour optimiser les coûts. Du GPU généraliste à l’ASIC sur mesure, du CPU à l’accélération GPU, le choix du hardware dépendra de la caractéristique spécifique des charges — taille du modèle, exigences de latence, volume de concurrence, budget.

La demande en puissance de calcul pour l’inférence IA croît à un rythme supérieur à celui de l’entraînement. Ce déplacement du centre de gravité du calcul, du training vers l’inférence, est en train de remodeler toute la chaîne industrielle, de la conception des puces à l’architecture des data centers. Le GPU ne perdra pas sa place, mais il ne sera plus la seule réponse.

Voir l'original

L'ère de la déduction par IA est-elle vraiment arrivée ? La reconstruction de la puissance de calcul tripartite entre GPU, CPU et ASIC

Pourquoi le CPU revient-il sur le devant de la scène

La barrière naturelle du GPU et les défis de l’inférence

La contre-attaque des fabricants de CPU dans l’inférence

L’essor des ASIC et des puces spécialisées : une troisième voie

La refonte des coûts et de l’économie de l’inférence

Conclusion

Sujets populaires

MyGateTradeStory

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

GateProofOfReservesReport

Épinglé