Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
CFD
Produits dérivés CFD sur actions américaines
US Stocks
Accédez à de véritables actions et ETF américains
HK Stocks
Tradez des actions des actions de qualité cotées à Hong Kong
Futures sur actions
Effet de levier élevé, trading 24h/24 et 7j/7
Actions tokenisées
Adossé à de véritables actions
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
GUSD
Mint GUSD pour des rendements de Treasury RWA
Activités boursières
Tradez des actions populaires et débloquez des airdrops généreux
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Gestion de patrimoine VIP
Plans premium de croissance
Gestion privée de patrimoine
Allocation premium d'actifs
Fonds Quant
Stratégies quantitatives
Staking
Stakez des cryptos pour gagner avec les produits PoS.
Levier Smart
Effet de levier sans liquidation
USD1 Intérêts sur holding
20%
Sans blocage, tradez & retirez
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
Derrière le « chip mystérieux » de Nvidia — l'ère de la déduction ouvre « quatre nouvelles tendances en puissance de calcul »
NVIDIA intègre la technologie LPU (Language Processing Unit) et mise sur des puces d'inférence multi-lignes d'OpenAI, en transférant le principal champ de compétition en IA, de la formation à l'inférence. Selon Shenwan Hongyuan Research, en 2026, le mot-clé central de l'industrie de la puissance de calcul sera l'inférence, la consommation de tokens et le paradigme technologique étant profondément repensés autour de ce thème.
Le 28 février, selon le Wall Street Journal, NVIDIA prévoit de dévoiler lors de la prochaine conférence des développeurs GTC un nouveau processeur d'inférence intégrant la technologie Groq "Language Processing Unit" (LPU), décrit par le PDG Jensen Huang comme un système totalement inédit dans le monde. OpenAI a accepté d’être l’un des principaux clients de ce processeur et achètera à NVIDIA une capacité d'inférence dédiée à grande échelle.
Par ailleurs, le mois dernier, OpenAI a conclu un partenariat de plusieurs milliards de dollars avec la startup Cerebras, qui affirme que ses puces d'inférence surpassent les GPU de NVIDIA en vitesse. Ces mouvements indiquent que, les géants de l’IA passent d’une course à la puissance de calcul pour la formation à une stratégie multi-lignes pour la puissance d’inférence.
Shenwan Hongyuan souligne que, dans l’ère de l’économie Token, la puissance d’inférence connaît quatre grandes tendances : 1) l’augmentation des déploiements purement CPU, accélérant la décentralisation des capacités de calcul à faible coût ; 2) l’émergence d’architectures spécialisées comme LPU, remettant en cause la domination des GPU dans l’inférence ; 3) la percée accélérée des puces de puissance nationales, avec une diversification claire de la chaîne d’approvisionnement ; 4) la transformation de la structure de demande en puissance d’inférence, passant du « entraînement unique » à une « consommation massive de tokens », où le rapport qualité-prix devient un facteur clé.
Le rapport indique que, les fabricants capables de fournir des puces d’inférence abordables et performantes en tireront le plus de bénéfices, la percée conjointe des CPU, LPU et puces nationales étant la clé de cette nouvelle configuration de puissance.
Explosion de la demande d’inférence, consommation de tokens record
Shenwan Hongyuan Research estime que, derrière cette croissance continue de la demande, deux moteurs structurels majeurs se dessinent : d’une part, la monétisation accélérée des grands modèles, avec des modèles comme Claude qui commencent à s’intégrer dans des applications industrielles via divers plugins ; d’autre part, l’accélération de la mise en œuvre des agents, avec des produits comme openclaw ou Qianwen Agent qui marquent l’entrée des agents dans des scénarios réels de travail et de production, chaque appel de modèle ou exécution d’agent nécessitant une puissance d’inférence considérable.
Les données de Shenwan Hongyuan montrent que, durant le Nouvel An chinois, la quantité d’inférence des grands modèles locaux a fortement augmenté : le 21 janvier, le débit d’inférence de Doubao a atteint 63,3 milliards de tokens, avec 114 millions d’utilisateurs actifs mensuels pour Yuanbao, et plus de 120 millions de participants à l’événement «免单» de Qianwen.
La plateforme mondiale d’API de modèles IA OpenRouter révèle également cette tendance. Du 9 au 15 février, la consommation de tokens des modèles chinois a atteint 4,12 trillions, dépassant pour la première fois celle des modèles américains avec 2,94 trillions. La semaine suivante, du 16 au 22 février, la consommation chinoise a encore bondi à 5,16 trillions, en hausse de 127 % en trois semaines, occupant quatre des cinq premières places mondiales en termes d’appels de modèles.
LPU, nouvelle étoile, différenciation entre puces d’entraînement et d’inférence
NVIDIA a investi 20 milliards de dollars pour obtenir une licence technologique clé de Groq, intégrant dans une transaction de « recrutement clé » des cadres dont le fondateur Jonathan Ross. Shenwan Hongyuan estime que, cette opération marque la reconnaissance officielle de l’importance des puces d’inférence pures par les acteurs de premier plan.
La différence d’architecture entre LPU et GPU traditionnel explique leur efficacité dans l’inférence. La décodeuse de grands modèles est particulièrement lente, mais LPU a été spécialement optimisée pour réduire la latence et améliorer la bande passante mémoire. Selon des rapports antérieurs, le nouveau produit NVIDIA pourrait intégrer la prochaine architecture Feynman ou adopter une solution SRAM plus large, voire une intégration via empilement 3D.
Sur cette base, Shenwan Hongyuan prévoit qu’à l’avenir, la conception des puces IA suivra une division claire : les puces d’entraînement continueront d’utiliser la combinaison GPU-HBM, tandis que celles d’inférence évolueront vers une architecture ASIC + LPU-SRAM + SSD. Avec le déplacement de la demande de puissance de l’entraînement vers l’inférence, les fabricants spécialisés dans les puces d’inférence bénéficieront d’opportunités de développement.
Révolution dans les systèmes d’inférence, CPU et réseaux en forte croissance
L’évolution ne se limite pas à la puce unique, mais concerne aussi la transformation du système dans son ensemble, un autre aspect clé de cette montée en puissance de l’inférence. Shenwan Hongyuan souligne que, avec le passage des chatbots aux agents, les exigences en termes de latence, débit et profondeur de réflexion augmentent, poussant l’architecture système vers un réseau à trois couches.
La première couche, réactive, est assurée par des puces d’inférence avec SRAM, offrant une réponse ultra-faible latence ; la deuxième couche, de réflexion lente, utilise de grands clusters de calculs pour des déductions complexes, avec une demande accrue pour CPU multi-noyaux et multithreads ; la troisième couche, de mémoire, correspond au système ContextMemory System d’NVIDIA, utilisant des SSD gérés par Bluefield4 DPU pour stocker la mémoire à long terme et le cache KV.
NVIDIA ajuste également sa stratégie matérielle. La pratique précédente de déployer le CPU Vera avec le GPU Rubin en bundle s’est avérée coûteuse pour certains workloads IA. La société a annoncé ce mois-ci une extension de sa collaboration avec Meta Platforms, avec un déploiement massif de CPU seul pour soutenir l’IA publicitaire de Meta, marquant une étape au-delà de la simple vente de GPU.
Avancées dans la puissance nationale
Shenwan Hongyuan estime que, l’essor des puces d’inférence nationales mérite une attention particulière, avec des attentes de marché différenciées.
Techniquement, les nouvelles générations de puces nationales ont réalisé plusieurs avancées fondamentales : support de formats de données à faible précision FP8/MXFP8/MXFP4, avec une puissance de calcul atteignant 1P ou 2P ; augmentation significative de la puissance vectorielle, grâce à une nouvelle conception homogène supportant SIMD/SIMT ; bande passante interconnectée multipliée par 2,5, atteignant 2 To/s.
Particulièrement notable, la séparation PD a été réalisée au niveau des puces : en utilisant deux types de HBM développés en interne, une version PR pour le pré-remplissage et la recommandation, et une version DT pour le décodage et l’entraînement. La version PR, à faible coût, vise à réduire considérablement le coût d’investissement lors du pré-remplissage d’inférence, avec une sortie prévue au premier trimestre 2026.
Au niveau de la chaîne d’approvisionnement, les progrès des fabricants nationaux d’emballage et de test confirment cette tendance. Selon une réponse à une première demande d’informations, le chiffre d’affaires de leur activité d’emballage 2.5D, principalement pour les puces de calcul haute performance, est passé de 0,5 milliard de yuans en 2022 à 1,82 milliard en 2024, confirmant la capacité croissante de l’offre nationale de puces de puissance et l’accélération de la localisation de la chaîne d’approvisionnement.
Avertissements et clauses de non-responsabilité