DeepSeek-V4 finally arrives.On April 24th, the preview version of the all-new series model DeepSeek-V4 was officially launched and open-sourced simultaneously.DeepSeek-V4 has pioneered a brand-new attention mechanism, compressing along the token dimension, combined with DSA sparse attention (DeepSeek Sparse Attention), achieving globally leading long-context capabilities, and significantly reducing the requirements for computation and video memory compared to traditional methods.Don't underestimate it, DeepSeek-V4 greatly reduces the demand for computation and video memory.Miaotou believes this will directly weaken NVIDIA GPU's advantages. It is worth noting that DeepSeek-V4 also prioritizes compatibility with domestic chip manufacturers.In other words, do not overestimate NVIDIA's moat, and also do not underestimate the wave that DeepSeek is creating.

金色财经_

2026-04-24 17:29:54

DeepSeek-V4 finally arrives.

Le 24 avril, la nouvelle série de modèles DeepSeek-V4 en version préliminaire a été officiellement lancée, avec une mise en open source simultanée.

DeepSeek-V4 a inauguré un tout nouveau mécanisme d’attention, en compressant au niveau des tokens, combiné à l’attention sparse DSA (DeepSeek Sparse Attention), permettant une capacité de contexte longue de niveau mondial, tout en réduisant considérablement la demande en calcul et en mémoire vidéo par rapport aux méthodes traditionnelles.

Ne sous-estimez pas cela, DeepSeek-V4 réduit considérablement la demande en calcul et en mémoire vidéo.

Miaotou pense que cela affaiblira directement l’avantage des GPU Nvidia. Il est également à noter que DeepSeek-V4 privilégie l’adaptation aux fabricants de puces nationaux.

En d’autres termes, ne surestimez pas la barrière naturelle de Nvidia, et ne sous-estimez pas la révolution architecturale que DeepSeek est en train de déclencher. La clé ne réside pas dans « qui remplace qui », mais dans la redistribution des profits dans la chaîne de l’industrie de l’IA, les chemins de déploiement et la logique d’investissement, qui pourraient être en train de changer.

Danse avec des « chaînes »

Au cours des deux dernières années, les grands modèles d’IA ont principalement été évalués par leur entraînement, en misant sur la puissance de calcul.

Dans une certaine mesure, la compétition sur les grands modèles fondamentaux d’IA est essentiellement une compétition sur l’infrastructure de puissance GPU. Celui qui peut acheter plus de GPU haut de gamme, constituer des clusters plus grands, a plus de chances de développer des modèles fondamentaux plus puissants.

Cependant, en raison des contrôles à l’exportation américains, la vente aux Chinois de puces de pointe comme H100/H200 de Nvidia est interdite. De plus, la fabrication avancée de TSMC est bloquée par les États-Unis, et les GPU domestiques restent encore à une certaine distance des cartes Nvidia.

« Les fabricants de GPU domestiques doivent se battre sur scène avec Nvidia tout en étant entravés par des « chaînes » », a confié un responsable d’une entreprise de GPU à Miaotou.

Ce qui est intéressant, c’est qu’en dépit de cette situation défavorable, l’écart entre les grands modèles chinois et américains a commencé à se réduire progressivement, voire à s’égaliser.

Fin 2023, l’écart de performance entre les modèles de pointe chinois et américains dans divers domaines tournait encore autour de 20%-30%. Le 14 avril, le laboratoire HAI de Stanford a publié le rapport « AI Index 2026 », un rapport sectoriel de 423 pages, qui montre que l’écart de performance entre les grands modèles chinois et américains s’est réduit à 2,7%, atteignant presque une parité technologique.

Miaotou pense que si l’on considère l’écart de performance des grands modèles IA sino-américains comme un résultat, alors le GPU Nvidia n’est pas un facteur déterminant.

Cela s’explique en partie par l’essor des puces nationales et par l’infrastructure électrique chinoise bien développée.

Jensen Huang a récemment déclaré dans une interview : « L’IA est essentiellement une question de calcul parallèle. La Chine peut tout à fait compenser le déficit de processus d’une seule puce en empilant davantage de puces, car elle dispose de suffisamment d’énergie. Si elle le souhaite, elle peut assembler plus de puces, même si leur processus est en retard de quelques nanomètres. »

En réalité, de nombreux fabricants de GPU domestiques ont déjà réalisé des clusters de dizaines de milliers de cartes pour compenser la faiblesse du calcul d’une seule carte. Par exemple : le cluster de dizaines de milliers de cartes de Moores, ou le cluster SADA de Muxi, le « Yiyuan » de Xiyuan.

D’autre part, cela s’explique par l’émergence d’entreprises de grands modèles comme DeepSeek.

DeepSeek utilise une conception logicielle avant-gardiste pour s’adapter activement et donner du pouvoir au matériel national, ouvrant la voie aux puces domestiques.

Par exemple : DeepSeek-V3 a validé la faisabilité de FP8 pour l’entraînement de modèles à grande échelle, permettant d’élargir la taille du modèle sans coûts supplémentaires ni impact sur la qualité de l’entraînement.

Pour faire une analogie, auparavant, pour réaliser une tâche complexe d’IA, il fallait plusieurs machines allemandes énormes, précises et coûteuses (représentant les GPU de haute précision de Nvidia). Aujourd’hui, DeepSeek, en modifiant le processus de traitement (c’est-à-dire le format des données), permet à cette tâche d’être réalisée efficacement par une ligne de production composée de dizaines de petites machines domestiques simples et bon marché (représentant les unités de calcul des GPU nationaux).

Même ainsi, les GPU Nvidia restent en tête pour l’entraînement de grands modèles à l’étranger.

Mais du point de vue de l’évolution de l’industrie, l’entraînement de grands modèles n’est que la première étape. Une fois le modèle créé, ce qui détermine la vitesse de commercialisation et la pénétration industrielle, c’est l’inférence. Surtout après la popularisation d’agents comme Openclaw et Hermes.

Nvidia a gagné sur l’entraînement, mais l’inférence ne fait que commencer

L’entraînement et l’inférence sont deux modes différents.

L’explosion des agents de type Claw, avec leur capacité de mémoire à long terme, en est la clé.

Autrefois, l’IA ne faisait que converser, puis oubliait tout, avec une mémoire de poisson rouge ; mais Claw peut se souvenir de tout, continuer à travailler, et devenir de plus en plus intelligent avec l’usage, transformant l’outil en « outil » plutôt qu’en « jouet ».

Lorsque le contexte devient plus long, la mémoire de l’agent plus profonde, et l’appel aux outils plus fréquent, la mémoire cache KV (mémoire de stockage) du GPU peut être saturée, ce qui dégrade la qualité de l’inférence du grand modèle.

Ainsi, le premier obstacle à l’explosion de l’inférence n’est pas la puissance de calcul insuffisante, mais la compétition entre « mémoire » et « calcul » pour la même mémoire vidéo.

Pour les GPU domestiques, la puissance (TFLOPS de pointe) n’est pas le principal frein, c’est la mémoire vidéo. Et Nvidia possède un avantage générationnel de 1 à 2 ans en technologie de mémoire vidéo.

Les GPU de centre de données grand public de Nvidia (comme A100, H100) ont généralement une capacité de mémoire vidéo de 80 Go par carte, tandis que la dernière génération de GPU Rubin embarque 8 puces HBM4 de 36 Go (total de 288 Go), avec un débit de mémoire total de 13 TB/s.

Les puces domestiques, limitées par la fabrication avancée, ont une capacité et une bande passante inférieures, et doivent encore faire leur trou. Par exemple : la mémoire du Ascend 910B est de 64 Go.

Selon un article publié précédemment par Liang Wenfeng, DeepSeek-V4 aurait adopté une architecture unique appelée Engram, qui résout précisément le problème de la capacité de mémoire vidéo.

DeepSeek-V4 consiste à extraire les connaissances « mémorisées » statiques du modèle et à les stocker dans une grande table mémoire ; lors de l’inférence, le CPU se charge de « consulter le dictionnaire » (recherche de connaissances), tandis que le GPU ne se concentre que sur « la logique » (calcul de l’inférence).

Les deux opérations sont entièrement parallèles. Quand le GPU calcule la logique pour le mot suivant, le CPU a déjà transféré les connaissances nécessaires à l’entrée suivante. Grâce à cette architecture parallèle, le délai est masqué, et l’efficacité de production par unité de temps augmente de façon exponentielle, la mémoire vidéo du GPU n’étant plus saturée par le cache KV.

Par exemple : une tâche d’inférence à long contexte nécessitant 80 Go de mémoire vidéo pourrait, sous architecture Engram, ne nécessiter que 8 Go.

Cela signifie que même avec une mémoire vidéo limitée, un GPU domestique peut réaliser la même tâche, tandis que la rareté de la mémoire HBM de Nvidia pourrait s’effondrer. Par ailleurs, le CPU connaîtra également une explosion.

De plus, il faut souligner que DeepSeek-V4 sera bientôt lancé, et cette fois, contrairement à la pratique habituelle dans l’industrie, aucune permission de test anticipé n’a été donnée à Nvidia, laissant la priorité à Huawei et Cambrian. L’objectif est de migrer tout l’écosystème CUDA vers le framework CANN de Huawei.

Bien que l’écosystème CUDA de Nvidia ne soit pas prêt d’être remplacé à court terme, des fissures apparaissent déjà. Cela signifie que DeepSeek, que ce soit dans l’écosystème open source ou dans l’autonomie nationale, occupe toujours une position forte.

Selon des médias, pour répondre à la demande de services cloud basés sur ce modèle, des géants technologiques comme Alibaba, ByteDance et Tencent ont déjà passé des commandes auprès de Huawei pour sa nouvelle génération de puces IA, avec des commandes atteignant plusieurs dizaines de milliers de pièces.

Il est prévu que cette DeepSeek-V4 à venir apportera de nouvelles attentes en matière d’investissement dans l’IA.

Nouvelles attentes d’investissement

Du point de vue de l’investissement, Miaotou pense que DeepSeek-V4 profitera directement à deux grands axes : la puissance de calcul nationale et les applications IA.

1. Puissance de calcul nationale

Si DeepSeek-V4 est confirmé comme étant entièrement entraîné sur des puces nationales, ce sera le « moment DeepSeek » pour l’industrie des puces domestiques. Cela prouve qu’il est possible de développer des grands modèles de classe mondiale sans H100.

Ce changement marginal dépasse largement les attentes. Il n’est pas moins significatif que le fait que Google ait entraîné Gemini avec ses TPU auto-conçus. À noter que Google est déjà dans la liste des investissements de Buffett chez Berkshire Hathaway.

Auparavant, les attentes du marché concernant la puissance de calcul nationale se limitaient à une grande narration sur « l’autonomie et le contrôle », mais V4 va pousser cette logique vers une réalité commerciale « pratique et indispensable ».

Les plus grands bénéficiaires seront les fabricants de GPU domestiques. Huawei et Cambrian ont déjà clairement indiqué leur position. D’autres fabricants de GPU locaux s’adapteront activement à la grande modèle DeepSeek. Sur le plan de la certitude, les bénéfices seront principalement pour Huawei, Cambrian, ainsi que pour les fabricants de serveurs et de composants liés.

En regardant jusqu’en 2026, cinq entreprises cotées dans le domaine de l’IA, comme Cambrian, Bairen Technology, et Tianshu Zhixin, anticipent une croissance de leurs revenus d’environ 120% à 257 milliards de RMB.

De plus, en termes de flexibilité, Muxi prévoit de devenir rentable en 2026, ce qui en ferait une autre entreprise de GPU profitable après Cambrian, complétant ainsi le cycle commercial.

Ainsi, la puissance de calcul nationale continuera d’être un point clé pour l’investissement dans l’IA.

2. Applications IA

En plus de répondre aux besoins d’inférence sur puissance nationale, DeepSeek-V4 pourrait réduire davantage les coûts d’entraînement et d’inférence grâce à ses innovations architecturales (mHC et technologie Engram), accélérant ainsi le cycle d’innovation de la chaîne de valeur IA en Chine.

Par ailleurs, DeepSeek pourrait aider les entreprises mondiales de grands modèles linguistiques et d’applications IA à accélérer leur commercialisation, atténuant ainsi la pression croissante sur les dépenses en capital.

Avec la mise en œuvre de l’architecture Engram, la demande en mémoire vidéo GPU sera réduite de 90%, ce qui entraînera une forte réduction des coûts matériels pour l’inférence. C’est une excellente nouvelle pour le déploiement en périphérie (edge AI inference).

De plus, depuis janvier de cette année, le secteur des applications IA en Bourse a été morose, principalement à cause de la crainte que « les grands modèles absorbent tout le logiciel ». L’IA est entrée dans une phase de « logique de suppression ».

Mais la sortie de DeepSeekV4 pourrait améliorer cet état d’esprit. Pour les entreprises d’applications en Chine, les grands modèles sont davantage une infrastructure bon marché, facilitant l’optimisation des coûts.

Miaotou pense que les entreprises d’IA fortement liées aux données clés et les fournisseurs de services cloud liés bénéficieront également d’une amélioration marginale.

Résumé

Nvidia reste indiscutablement la plateforme la plus puissante pour l’entraînement de grands modèles. À court terme, ses avantages en GPU haut de gamme, en écosystème CUDA et en capacité de cluster restent difficiles à surpasser.

Il ne faut pas sous-estimer, cependant, que l’avantage de Nvidia est en train d’être progressivement démantelé par DeepSeek, dans une « courbe de sauvetage national ».

DeepSeek-V4, en adaptant en priorité les puces nationales et en innovant, tente de prouver que l’inférence IA ne doit pas forcément continuer à dépendre des GPU les plus coûteux. L’optimisation système, la synergie logiciel-hardware et le déploiement local peuvent aussi ouvrir une nouvelle voie, et la puissance nationale peut encore progresser.

Ne surestimez pas Nvidia, et ne sous-estimez pas DeepSeek ni la puissance nationale.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
183.95K Popularité
#
CryptoMarketSeesVolatility
244.69K Popularité
#
IsraelStrikesIranBTCPlunges
32.17K Popularité
#
rsETHAttackUpdate
81.02K Popularité
#
US-IranTalksStall
193.96K Popularité

Épingler

Ne pas surestimer Nvidia Ne pas sous-estimer DeepSeek

Danse avec des « chaînes »

Nvidia a gagné sur l’entraînement, mais l’inférence ne fait que commencer

Nouvelles attentes d’investissement

Résumé

Sujets populaires

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Épingler