Note de l’éditeur : Au cours de l’année écoulée, la majorité des discussions autour de DeepSeek se sont concentrées sur la performance du modèle, la stratégie open source et la guerre des prix. Mais si l’on ne considère DeepSeek qu’à travers le prisme « vendre ou ne pas vendre d’abonnements », « y a-t-il du multimodal » ou « peut-on faire un agent de codage », on risque de sous-estimer ce que l’entreprise cherche réellement à changer.

Cet article propose une évaluation plus radicale : l’objectif de DeepSeek n’est peut-être pas de monétiser à court terme via l’application, mais de remodeler la structure des coûts de l’entraînement et de l’inférence en IA par une série d’innovations architecturales fondamentales, et d’inciter indirectement à la formation d’un nouvel écosystème hardware. De MoE, MLA à DSA, CSA, mHC, Engram, puis Dual Path et TileLang, la trajectoire technologique de DeepSeek tourne toujours autour d’une question centrale : comment, avec des ressources limitées en HBM, procédés avancés, emballages et écosystème CUDA, faire tourner des modèles plus puissants avec moins de calcul de haut niveau.

Ce qui mérite le plus d’attention dans cet article, ce n’est pas « si DeepSeek pourra générer plusieurs milliards de dollars via API ou abonnements », mais plutôt si elle parvient à lier la capacité des modèles, le système de mémoire et l’écosystème hardware national. La compression du KV Cache réduit la dépendance à la HBM, NAND et SSD peuvent assurer un cache prolongé, LPDDR peut servir au chargement en flux des poids et au stockage d’Engram, et TileLang tente d’affaiblir la barrière naturelle de CUDA. Si ces innovations continuent de se diffuser, les bénéficiaires ne seront pas seulement DeepSeek, mais aussi le stockage, les ASIC, GPU, puces réseau et toute la chaîne d’infrastructure IA.

Bien sûr, les jugements sur « l’écosystème industriel de 10 000 milliards USD » et « la valorisation d’un trillion USD » restent spéculatifs. Mais ils offrent une voie essentielle pour comprendre DeepSeek : l’open source ne signifie pas forcément renoncer à la commercialisation, et des prix faibles ne sont pas forcément une simple subvention au marché. Pour DeepSeek, le vrai business pourrait ne pas être au niveau des applications, mais dans l’aide à rendre plus accessibles les matériels, et à rendre l’offre IA à moindre coût une réalité. En d’autres termes, ce qu’elle vend peut ne pas être le modèle lui-même, mais la faisabilité de la prochaine génération d’infrastructures IA.

Voici le texte original :

Vous êtes-vous déjà demandé comment DeepSeek compte réellement gagner de l’argent, et si elle peut en faire beaucoup ?

Elle n’a pas lancé de plans d’abonnement ou de programmation compétitifs comme GLM, MoonShot ou MiniMax ; elle n’a pas non plus de modèles multimodaux, audio ou vidéo. Jusqu’à présent, elle n’a même pas son propre cadre d’intégration, c’est-à-dire une plateforme pour l’appel de modèles, l’intégration d’outils et l’exécution de tâches — même si elle a récemment commencé à recruter pour construire cette infrastructure.

Par ailleurs, DeepSeek semble encore fermement attachée à l’open source, et prête à partager ses « secrets » publiquement. N’est-ce pas fou ? Ne serait-ce pas une dépense inutile ? Ces investisseurs prêts à injecter 10 milliards de dollars, ne seraient-ils pas en train de jeter leur argent à la poubelle ?

Personnellement, je pense que la réponse est tout le contraire.

Je vais, dans la suite, partager quelques observations basées sur ce que DeepSeek a déjà accompli, et analyser une stratégie qu’elle semble suivre. Le CEO de DeepSeek, Liang Wenfeng, ne vise peut-être pas seulement la compétition immédiate sur les modèles. Son objectif pourrait être plus ambitieux : DeepSeek a la chance de dépasser une valorisation de 1 000 milliards USD, tout en catalysant la formation d’un nouvel écosystème industriel de 10 000 milliards USD.

Article de TechInAsia sur la dernière levée de fonds de DeepSeek

Revisiter le « voyage héroïque » de DeepSeek

DeepSeek a toujours avancé à contre-courant. Elle n’a pas choisi de lancer des modèles légèrement améliorés en espérant les transformer rapidement en applications monétisables, comme des abonnements de programmation. Le 27 janvier 2025, j’avais publié un tweet très partagé décrivant ce que j’appelle le « voyage héroïque » de DeepSeek. Aujourd’hui, cette histoire devient encore plus captivante.

Alors que d’autres tentent encore de construire des modèles denses, DeepSeek a opté pour des modèles experts hybrides (MoE).

Ils ont adopté une approche « first principles », inventant un nouvel algorithme GRPO pour remplacer le PPO, qui était alors la méthode de renforcement la plus courante mais coûteuse à mettre en œuvre.

Ils ont découvert que l’apprentissage par renforcement basé sur des récompenses vérifiables (RLVR) est une stratégie clé pour améliorer la capacité d’inférence des modèles.

Ils ont aussi proposé une stratégie de décodage simple appelée « prédiction multi-token » (Multi Token Prediction), qui rend aussi le signal d’entraînement plus dense.

Ils ont perfectionné la pipeline « ZERO bubble » pour optimiser l’utilisation des ressources GPU limitées.

Ils ont publié un chargeur d’équilibrage pour experts, facilitant le déploiement de modèles MoE. Notamment, avec la stratégie « Wide Expert Parallel », le modèle peut servir avec des batchs plus grands, réduisant considérablement le coût d’inférence.

Ils ont inventé des mécanismes comme MLA, DSA, CSA, HCA, pour réduire la dépendance au KV Cache, et faire en sorte que la croissance du calcul avec la longueur du contexte reste aussi stable que possible.

Ils ont créé Engram, utilisant la mémoire pour améliorer l’efficacité du calcul.

Ils ont aussi inventé mHC, permettant de maintenir une formation stable même avec une augmentation de la taille du modèle. Beaucoup d’autres exemples existent.

Dans cette « odyssée héroïque », le héros ne décide pas dès le départ où il va. Il apprend en chemin, découvre sa mission véritable, et la réalise malgré de nombreux obstacles. Il rencontre des sceptiques, mais choisit de les ignorer. Il affronte des acteurs malveillants. Il a des défauts, mais finit par les surmonter pour accomplir sa mission. Face à des défis apparemment insurmontables, il trouve des alliances et apprend à utiliser ses ressources limitées de façon sage. C’est cette dynamique qui suscite l’adhésion, la respect et même l’opposition à DeepSeek.

Comme je vais l’expliquer en détail, DeepSeek a parcouru cette voie depuis longtemps, découvrant peu à peu sa destinée ultime : son objectif n’est pas de vendre des abonnements de programmation, mais de promouvoir un écosystème hardware IA chinois d’une valeur de 10 000 milliards USD, tout en visant une valorisation de 1 000 milliards USD. Dans ce processus, elle créera aussi des opportunités pour de nombreux nouveaux acteurs dans l’écosystème hardware occidental.

Commençons par quelques calculs intéressants sur le KV Cache

Regardez cette récente publication de @SemiAnalysis_ :

DeepSeek a déjà résolu ce problème mieux que quiconque !

Faisons un peu de calculs sur le KV Cache. Pas d’inquiétude si vous n’aimez pas les maths. Nous utiliserons le calculateur de KV Cache récemment publié pour estimer combien DeepSeek V4 Pro peut économiser en KV Cache, en le comparant aux modèles GLM et Qwen les plus récents.

Je vais faire ces calculs pour un contexte de 1 million de tokens, en supposant une précision de 8 bits pour le KV, et 16 bits pour l’indexeur. Vous pouvez aussi essayer vous-même avec ce calculateur : https://kvcache.ai/tools/kv-cache-calculator/

Essayez par vous-même avec le calculateur !

Pour un contexte de 1 million de tokens :

· DeepSeek V4 nécessite seulement 5,48 GB de HBM ;
· GLM-5 demande 60 GB de HBM ;
· Qwen3-235B-A22B atteint jusqu’à 89 GB de HBM.

À noter :

· DeepSeek est un modèle de 1,6 trillion de paramètres ;
· GLM-5 compte environ 700 milliards de paramètres, utilisant déjà MLA et DSA de DeepSeek, mais sans la dernière compression d’attention ;
· Qwen3-235B-A22B a environ 235 milliards de paramètres, avec une attention GQA.

DeepSeek, en atténuant la pression mémoire, a déjà apporté une contribution fondamentale. Si ces innovations se généralisent, elles réduiront considérablement le coût opérationnel des agents à long cycle, et ouvriront la voie à de nouvelles applications.

Comparaison de l’utilisation du KV Cache pour un contexte de 1 million de tokens et la taille du modèle

La méthodologie derrière la « folie »

La taille du KV Cache, si petite, tout en maintenant la qualité du modèle, est précisément la raison pour laquelle DeepSeek peut offrir un cache longue durée à un coût très faible — son prix étant même inférieur à 3 % de celui de Sonnet 4.6 pour la réussite du cache, et elle peut conserver le cache pendant plusieurs heures.

Pour les tâches à long cycle, un KV Cache plus petit permet de le décharger plus facilement sur SSD, puis de le recharger au besoin. Cela réduit la dépendance à la HBM. Du point de vue de l’industrie hardware IA chinoise, la HBM est non seulement rare, mais aussi l’un des types de mémoire les plus difficiles à produire.

De plus, DeepSeek a développé une technologie pour charger plus rapidement le KV Cache depuis le SSD, décrite dans sa publication sur le papier Dual Path.

DeepSeek V4 compresse le KV Cache de façon très efficace, rendant cette étape peut-être même superflue.

Alors, qui bénéficie le plus directement de la compression du KV Cache ?

Qui fournit en masse des SSD ? N’oubliez pas que YMTC (Yangtze Memory Technologies) devient un géant du NAND 3D. Le NAND peut aider DeepSeek à éviter de recalculer le KV. En retour, DeepSeek crée un énorme marché pour le NAND et les SSD — ce qui profite à Yangtze Memory, mais aussi à d’autres fabricants.

Mais ce n’est pas seulement une question de NAND et SSD.

La mémoire LPDDR a aussi un potentiel énorme. Elle peut stocker les poids du modèle, puis les diffuser en flux vers la HBM quand nécessaire, atténuant ainsi la pression sur la HBM. L’équipe SGLang a publié un excellent blog à ce sujet. La figure ci-dessous illustre le fonctionnement de cette solution.

Bien que DeepSeek n’ait pas conçu spécifiquement pour cette approche, ses architectures MoE, ses nombreux experts, et ses poids en 4 bits facilitent sa mise en œuvre.

Ce diagramme montre comment la mémoire pourrait être utilisée, et comment les poids du modèle peuvent être diffusés en flux de LPDDR vers la HBM. Je recommande vivement la lecture du blog de SGLang.

Si cette innovation est combinée à un KV Cache extrêmement compact et sans perte, cela pourrait considérablement réduire la besoin en HBM.

Alors, qui produit la LPDDR en Chine ? La réponse est CXMT, c’est-à-dire Yangtze Memory. Leur vitesse en LPDDR n’est qu’en retard d’environ une demi-génération, et leur densité d’une génération, ce qui n’est pas un grand écart.

En plus d’un NAND abondant, l’écosystème IA chinois disposera bientôt d’une offre LPDDR suffisante. Cela peut-il soulager la pression sur la puissance de calcul ? La réponse est oui. Continuez à lire.

L’utilisation intelligente de la mémoire peut aussi alléger la pression sur GPU / ASIC

L’utilisation de NAND pour stocker le KV Cache est assez intuitive : cela permet de conserver le KV plus longtemps, de réduire la pression sur la HBM, et d’éviter de recalculer le KV, allégeant ainsi la charge des GPU et ASIC.

Mais la LPDDR peut-elle jouer un rôle similaire ? En plus de servir de stockage « à la demande » pour diffuser les poids vers la HBM, peut-elle aussi réduire davantage la charge de calcul ?

La réponse est oui.

La LPDDR peut stocker une grande quantité de ce que DeepSeek appelle Engram. Dans leur papier sur Engram, ils expliquent que MoE peut étendre la capacité du modèle par calcul conditionnel, mais que le Transformer manque d’un mécanisme natif de « recherche de connaissances ». Par conséquent, il doit souvent simuler inefficacement la recherche par calcul.

Pour résoudre ce problème, DeepSeek a introduit le module Engram. Il modernise l’embedding N-gram classique en une méthode de recherche basée sur un hachage O(1), créant une voie de sparsification complémentaire qu’ils appellent « mémoire conditionnelle » (conditional memory).

Ce procédé permet d’économiser du calcul, mais nécessite aussi de la mémoire pour héberger la table d’embedding, qui peut être très volumineuse.

En substance, c’est une solution « mémoire contre calcul » classique. Mais l’intuition clé est que, du point de vue du coût par bit de lecture, la mémoire est beaucoup moins chère — une recherche LPDDR coûte bien moins cher qu’un passage complet de données à travers plusieurs couches de Transformer pour une inférence.

C’est ainsi que DeepSeek sacrifie une partie de la mémoire pour économiser du calcul.

Les compromis à faire

En l’absence de transistors en densité équivalente, et sans EUV, les GPU et ASIC chinois risquent de rester longtemps en retard sur leurs homologues occidentaux en termes de FLOPs bruts. Leur fabrication d’emballages avancés reste également nettement inférieure. Ces compromis sont donc très justifiés, surtout si la Chine peut produire en masse NAND et LPDDR.

Récapitulatif de la stratégie à long terme de DeepSeek

D’après ces innovations, l’objectif de DeepSeek ne semble pas faire rapidement des milliards de dollars de profit. Beaucoup de ses choix passés le montrent : pas de multimodal, pas de modèles vocaux, pas de vidéo.

Ce à quoi elle participe réellement, c’est à une longue partie de patience, visant à bâtir un écosystème hardware IA chinois d’une valeur de 10 000 milliards USD.

Ce n’est pas seulement pour faire de la Chine un acteur clé dans le marché mondial de l’IA, mais aussi pour réduire fondamentalement les besoins en ressources, rendant la formation et le déploiement des modèles IA plus rentables. Ainsi, de nombreux fabricants de GPU, ASIC et puces réseau pourraient devenir des options viables.

Par ailleurs, ces innovations profiteront aussi à l’écosystème open source occidental et aux nouveaux fabricants hardware.

Tous ces signaux sont déjà visibles. Revenons en détail sur les innovations que DeepSeek a déjà proposées :

Introduction du modèle expert hybride (MoE) et MLA dans DeepSeek V2

DeepSeek a intégré le MoE et MLA dans V2. Le MoE réduit de 40 à 50 % la charge de calcul nécessaire pour entraîner des modèles intelligents ; MLA diminue la dépendance au KV Cache de 90 %.

Ces idées ont été présentées pour la première fois dans le papier DeepSeek V2 publié en mai 2024. Elles ont aussi jeté les bases de DeepSeek V3. À cette époque, DeepSeek entraînait un système proche du niveau de modèles fermés, avec seulement 2048 GPU H800 affaiblis.

DSA : introduit dans la version expérimentale V3.2, pour réduire la charge de calcul dans les scénarios à long contexte, tout en atténuant la pression sur la bande passante HBM.

Le rôle principal de DSA est d’assurer que la charge de calcul ne croît pas avec la longueur du contexte. Le graphique ci-dessous montre que, même en augmentant la longueur du contexte, le temps de traitement de DeepSeek V3.2 reste stable.

mHC : présenté par DeepSeek en décembre 2025 dans le papier « mHC : Manifold-Constrained Hyper-Connections ».

mHC est une innovation architecturale à l’échelle macro, qui redessine la circulation de l’information entre couches Transformer.

Traditionnellement, depuis ResNet, on utilise des connexions résiduelles standards, x + F(x). Avec mHC, on étend cette résilience en plusieurs canaux parallèles, permettant au modèle d’apprendre à mélanger ces canaux. La matrice de mélange est contrainte à être une double matrice aléatoire, limitée par la projection Sinkhorn-Knopp dans le polytope de Birkhoff. Mathématiquement, cela garantit que, peu importe la profondeur du modèle, la magnitude du signal reste stable.

Cela résout le problème de l’instabilité catastrophique rencontré avec des Hyper-Connections non contraintes. Ces Hyper-Connections, initialement proposées par ByteDance, voyaient leur signal exploser — jusqu’à 3000 fois — à 27 milliards de paramètres, provoquant l’effondrement de l’entraînement.

Le coût de calcul de mHC est très faible : environ 6,7 % du temps d’entraînement, puisqu’il ne modifie pas les FLOPs des couches d’attention ou FFN, mais change simplement la façon dont leurs sorties sont routées entre couches.

Mais ses gains de performance sont significatifs : à 27 milliards de paramètres, mHC améliore de 7,2 points le score sur BIG-Bench Hard, de 3,2 sur DROP, de 2,8 sur GSM8K, et de 1,4 sur MMLU, tout cela dans un même modèle, avec un budget de calcul quasi identique.

En résumé, mHC offre une topologie de routage inter-couches plus expressive, permettant d’obtenir une intelligence par paramètre plus élevée, sans augmenter sensiblement les FLOPs.

mHC, une architecture complexe mais qui permet un entraînement plus stable et une meilleure efficacité par paramètre.

CSA, HSA : introduits dans V4 en avril 2026.

CSA et HSA visent à réduire la besoin en KV Token de 90 % en compressant le KV Cache, tout en diminuant considérablement les FLOPs, pour soulager à la fois la HBM et le GPU / ASIC.

Engram : introduit au premier trimestre 2026, utilisant essentiellement la mémoire LPDDR pour échanger contre l’efficacité du calcul.

Le graphique ci-dessous montre qu’en conservant le même budget total de paramètres, Engram apporte une amélioration notable des performances.

Engram : introduit au premier trimestre 2026, utilisant essentiellement la mémoire LPDDR pour échanger contre l’efficacité du calcul.

Le graphique ci-dessous montre qu’en conservant le même budget total de paramètres, Engram apporte une amélioration notable des performances.

Ce graphique, partagé dans le papier V4 de DeepSeek, est une recommandation pour les fabricants hardware. Je suis certain que lors de discussions en face à face, ils donneront encore plus de retours.

L’investissement dans TileLang pointe aussi dans cette direction : DeepSeek ne se contente pas de résoudre ses propres limites de calcul, mais cherche à doter l’écosystème hardware chinois de capacités concurrentielles face à l’Occident.

Grâce à TileLang, les développeurs peuvent écrire une seule fois un kernel — le code de base pour le calcul — et le faire fonctionner sur plusieurs plateformes hardware, à condition que celles-ci disposent d’un backend TileLang.

Je prévois que d’autres laboratoires IA chinois suivront. Cela aidera les fabricants hardware chinois à répondre indirectement à la fameuse « barrière CUDA ». Cela libérera aussi le potentiel de hardware occidental, comme AMD.

Il faut préciser que plusieurs plateformes IA chinoises proposent déjà une compatibilité CUDA ou une couche de traduction. Par exemple, Moore Threads, Muxi, Biren et Tianshu Zhixin utilisent toutes des couches de traduction pour assurer une compatibilité CUDA élevée. En théorie, elles n’auraient pas forcément besoin de TileLang.

Apprentissage par renforcement massif et RSI

Avec l’augmentation des sources hardware disponibles pour DeepSeek, et la baisse relative des besoins en calcul du modèle, celui-ci pourra lancer des projets d’entraînement plus ambitieux, notamment en reinforcement learning post-entraînement.

Le reinforcement learning nécessite la génération de millions de trajectoires, c’est-à-dire des trillions de tokens. Ce processus devient rapidement très coûteux. Plus encore, pour entraîner un modèle avec un contexte de 1 million de tokens, il faut générer des trajectoires de la même longueur. Seules ces trajectoires ultra-longues permettent de supporter véritablement des tâches à long cycle.

De plus, avec plus d’options hardware, DeepSeek pourra mobiliser davantage de ressources, ce qui favorisera la recherche automatisée, ou RSI. RSI, c’est l’expérimentation autonome par l’IA. Ce processus implique beaucoup d’essais et erreurs, et ses coûts augmentent rapidement. Mais pour explorer tout le potentiel du design de modèles, RSI est indispensable. Avant d’atteindre l’AGI, puis l’ASI, DeepSeek doit maîtriser cette capacité.

Ce que DeepSeek fait aujourd’hui, le secteur le fera demain

Les innovations de DeepSeek autour du modèle expert hybride, MLA, DSA, etc., ont déjà été adoptées par d’autres laboratoires IA, en Chine comme à l’international.

Par exemple, ZAI, qui développe la série GLM, utilise MLA et DSA. Kimi, alias MoonShot, a aussi adopté MLA, et affirme que son architecture s’appuie sur celle de DeepSeek. En retour, DeepSeek utilise aussi l’optimiseur Muon, initialement employé par Kimi dans ses entraînements à grande échelle.

Il faut préciser :

MoE a été proposé pour la première fois par Google en 2017, avec Noam Shazeer comme auteur principal. La contribution de DeepSeek consiste à appliquer massivement le MoE, et à inventer ses propres techniques associées.

Muon, ou « MomentUm Orthogonalized by Newton-Schulz », a été proposé fin 2024 par le chercheur Keller Jordan. L’équipe de Kimi (MoonShot) a été la première à l’utiliser pour l’entraînement à grande échelle.

Et la question de la monétisation dans tout ça ?

Prenons l’exemple d’OpenAI.

OpenAI a obtenu des warrants / options d’achat d’actions AMD et Cerebras à prix réduit, liés à des jalons de consommation de puissance. Pour AMD et Cerebras, c’est une opération très avantageuse : en s’engageant à utiliser leur hardware, la probabilité de leur succès à long terme augmente considérablement.

Dans l’annonce d’AMD, on trouve cette phrase :

« En tant que partie de l’accord, pour mieux aligner les intérêts stratégiques, AMD a émis à OpenAI des warrants permettant d’acheter jusqu’à 160 millions d’actions ordinaires AMD, avec attribution progressive selon la réalisation de jalons. La première tranche sera attribuée à la fin du déploiement initial de 1 GW, et les tranches suivantes seront attribuées à mesure que la capacité d’achat atteindra 6 GW. La réalisation de ces jalons dépend aussi d’objectifs de prix d’action spécifiques, et de la réalisation par OpenAI de jalons techniques et commerciaux permettant à AMD de déployer à grande échelle. »

Je prévois que DeepSeek signera aussi des accords similaires avec plusieurs fabricants chinois de mémoire, ASIC, CPU et réseaux, pour collaborer étroitement, afin que leur hardware puisse supporter les charges de travail IA de pointe.

Sachant que la capitalisation totale des actions IA occidentales, y compris celles des alliés d’Asie de l’Est, dépasse déjà 10 000 milliards USD, cette approche « partenariat en échange d’actions » pourrait permettre à DeepSeek de contribuer à bâtir une industrie chinoise aussi gigantesque, en prenant sa part, et en atteignant sa propre valorisation de 1 000 milliards USD.

Cela lui permettrait non seulement de générer des revenus bien supérieurs à ceux d’un simple abonnement logiciel, mais aussi de réaliser son objectif : « faire bénéficier chacun de l’AGI ». Liang Wenfeng, fan de Jim Simons, et joueur d’argent très avisé, ne manquerait pas cette opportunité.

En regardant tout ce que DeepSeek a déjà accompli, cette seule explication paraît la plus cohérente.

Ce sont là les actions clés dans le secteur IA. La figure n’inclut pas encore les hyperscalers, c’est-à-dire les grands fournisseurs de cloud, ni beaucoup d’autres acteurs liés.

[Liens vers l’original]

Cliquez pour découvrir les opportunités d’emploi chez律动BlockBeats :

Rejoignez la communauté officielle de律动BlockBeats :

Groupe Telegram abonnés : https://t.me/theblockbeats

Groupe Telegram général : https://t.me/BlockBeats_App

Compte officiel Twitter : https://twitter.com/BlockBeatsAsia

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

6 J'aime

Récompense
6
11
1
Partager

Commentaire

Ajouter un commentaire

SmallPosition,BigMouth

· Il y a 20m

100 000 milliards de dollars ? Ce chiffre ressemble à de la science-fiction

Voir l'originalRépondre0

ThereAreCatsInTheContract.

· Il y a 1h

Donc, DeepSeek joue une partie d'échecs plus grande à venir

Voir l'originalRépondre0

BlackGoldMechanicalHand

· Il y a 4h

100 000 milliards est-ce un objectif de valorisation ou l'ampleur de l'industrie ? Je suis un peu perdu.

Voir l'originalRépondre0

GateUser-26374bb4

· Il y a 4h

La guerre des prix jusqu'au bout, le gagnant remporte tout est l'infrastructure

Voir l'originalRépondre0

PaperSculptureSquidward

· Il y a 4h

Enfin quelqu'un qui sort du cadre de l'évaluation des modèles pour examiner le problème

Voir l'originalRépondre0

GateUser-34d2b0ab

· Il y a 4h

Si l'on pouvait vraiment remodeler la couche de base, alors ces applications seraient toutes des besoins factices.

Voir l'originalRépondre0

SlippageSailor

· Il y a 4h

Si cette affirmation est vraie, alors tous ceux qui achètent des tokens maintenant contribuent à l'entraînement de ses troupes.

Voir l'originalRépondre0

GlitchOrchard

· Il y a 4h

Cet angle est assez intéressant, je ne me suis effectivement concentré que sur la couche applicative auparavant.

Voir l'originalRépondre0

ThetaSideEye

· Il y a 4h

Attendez tout le texte, cette introduction de l'éditeur sait vraiment piquer la curiosité.

Voir l'originalRépondre0

SushiSlippage

· Il y a 4h

Peggy compilé ? La qualité de BlockBeats est toujours au rendez-vous

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
2gGoldEvery10Minutes
3M Popularité
#
USIranDraftDeal
283.2K Popularité
#
IsraelStrikesIranBTCPlunges
49.13K Popularité
#
#DailyPolymarketHotspot
1.07M Popularité
#
HYPEMarketCapSurpassesDOGE
12.63M Popularité

Épinglé

Le chemin de 10 000 milliards de dollars de DeepSeek : dynamiser l'écosystème matériel de trillions avec l'open source

Revisiter le « voyage héroïque » de DeepSeek

Commençons par quelques calculs intéressants sur le KV Cache

La méthodologie derrière la « folie »

Alors, qui bénéficie le plus directement de la compression du KV Cache ?

L’utilisation intelligente de la mémoire peut aussi alléger la pression sur GPU / ASIC

Les compromis à faire

Récapitulatif de la stratégie à long terme de DeepSeek

Apprentissage par renforcement massif et RSI

Ce que DeepSeek fait aujourd’hui, le secteur le fera demain

Et la question de la monétisation dans tout ça ?

Sujets populaires

2gGoldEvery10Minutes

USIranDraftDeal

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

HYPEMarketCapSurpassesDOGE

Épinglé