DeepSeek encore considéré comme un « boucher des prix » mais cette fois, il ne s'agit pas seulement de tuer le prix

Auteur : Xiaojing

Token est en train de redéfinir les coordonnées de valeur à l’ère de l’IA, la préversion de DeepSeek V4 est sortie, et une fois de plus, elle est devenue le « boucher des prix », mais elle a apporté une nouvelle problématique pour la tarification des tokens. La même quantité de tokens peut avoir un coût réel dans différents systèmes pouvant varier d’un ordre de grandeur, et les grands modèles s’orientent vers une tarification systémique.

La préversion de DeepSeek V4 est enfin disponible, et une fois de plus, elle a réduit le prix des grands modèles, ce qui correspond parfaitement à la « caractéristique » de DeepSeek.

Le prix V4-Flash, avec une entrée à 1 yuan et une sortie à 2 yuan / million de tokens, coûte seulement 0,2 yuan après un cache hit ; le prix V4-Pro, avec une entrée à 12 yuan et une sortie à 24 yuan / million de tokens, coûte 1 yuan en cas de cache hit, avec une offre limitée à 75 % du prix lors du lancement, jusqu’au 5 mai. Les deux modèles supportent nativement un contexte d’un million de tokens.

Ce week-end, DeepSeek V4-Pro continue sa promotion limitée dans le temps, avec un prix réduit à 25 %, et le prix d’entrée en cas de cache hit est encore réduit d’un dixième. Un ingénieur en IA a plaisanté : « Après le week-end, DeepSeek V4-Pro ne sera qu’à 0,025 yuan du gratuit ».

Actuellement, cela fait deux ans que la guerre des prix, débutée avec DeepSeek V2 en 2022, a commencé. Au cours de ces deux années, le coût d’inférence des grands modèles a connu une baisse exponentielle, et dans une optique de coût effectif prenant en compte le cache hit, la réduction cumulative atteint même un facteur de cent.

Mais aujourd’hui, faire baisser les prix a une signification encore plus importante qu’auparavant. L’IA a basculé vers un paradigme d’agents axé sur des tâches longues et complexes, où une seule tâche nécessite des dizaines, voire des centaines d’appels au modèle.

Dans ce contexte industriel, la sortie de la préversion de DeepSeek V4 s’accompagne de deux informations clés. Premièrement, le contexte d’un million devient une configuration native pour les deux modèles ; deuxièmement, le prix du cache, avec une réduction supplémentaire. En superposant la tarification standard d’entrée et de sortie, cela pousse le prix au bas de la gamme pour des modèles de même capacité, dans le but de réduire au maximum la facture totale pour qu’un agent puisse réaliser une tâche.


Token dispose désormais d’un nouveau système de tarification

En regardant la baisse des prix en 2024, elle consiste essentiellement à faire passer les grands modèles de « coûteux pour expérimentation » à « outils utilisables ». À l’époque, grâce à des innovations architecturales améliorant l’efficacité de l’inférence, le coût d’appel du modèle, qui était de 10 à 30 dollars par million de tokens à l’ère GPT-4, a rapidement été réduit à environ 1 dollar.

Graphique : baisse exponentielle du prix des tokens au cours des deux dernières années

Il s’agit d’une « baisse absolue du prix » typique : les développeurs peuvent invoquer des grands modèles à faible coût, ce qui ouvre réellement la couche applicative. Mais à cette étape, le prix correspond encore au « coût par appel unique », et le token était considéré comme une unité de tarification unique, avec un nombre d’appels linéairement lié au coût.

Deux ans plus tard, la structure tarifaire de DeepSeek V4 a également changé. Avec l’introduction du mécanisme de cache dans le système de facturation principal, le coût du token a été divisé en deux catégories : « nouveau calcul » et « calcul répété ». Dans les scénarios à haute fréquence de cache hit, le prix d’entrée peut être réduit à un dixième ou moins. Le prix, qui était auparavant une valeur statique, devient une variable fortement liée à la conception du système.

Graphique : le token divisé en « nouveau calcul » et « calcul répété »

En ne regardant que la tarification, V4 continue la stratégie de prix bas de DeepSeek. Sur le marché domestique, des modèles comme Alibaba Tongyi, Zhipu GLM, ou Kimi de Moonlight, ont des prix d’environ 1 à 4 yuan pour l’entrée, 4 à 12 yuan pour la sortie, tandis que V4-Flash coûte 1 yuan pour l’entrée et 2 yuan pour la sortie, soit environ un tiers à un quart du prix moyen du secteur.

La version Pro, à 12 et 24 yuan, est proche des modèles phares, mais le contexte d’un million de tokens est une capacité par défaut, pas une option payante. À l’échelle mondiale, la différence est encore plus marquée : le prix est environ un dixième à un cinquantième de celui de certains concurrents. Par exemple, le prix officiel de GPT-5.5 est : 5 dollars pour l’entrée / million de tokens, 0,5 dollar pour le cache input, et 30 dollars pour la sortie / million de tokens. Claude Opus 4.7 continue avec la même tarification qu’Opus 4.6, soit environ 5 dollars pour l’entrée / million de tokens, 25 dollars pour la sortie / million de tokens.

Bien que les modèles phares étrangers ne soient pas entièrement comparables en termes de capacités, d’écosystème ou d’utilisation du token, le prix reste un facteur déterminant pour la faisabilité commerciale dans un même scénario d’agent. Les fournisseurs étrangers subissent aussi des pressions tarifaires : Sam Altman a reconnu publiquement que l’abonnement ChatGPT Pro était déficitaire, et Dario Amodei a averti que l’industrie pratique une « tarification trop agressive ». En partie, ces prix reflètent la capacité de calcul, l’amortissement de la R&D et la stratégie de marché.

C’est pourquoi cette fois, l’avantage tarifaire a une signification plus profonde. En 2024, l’industrie se concentrait sur « si c’est utilisable » ; aujourd’hui, dans le paradigme de l’IA agentique, la question centrale est « si cela peut fonctionner à grande échelle ».

Une tâche d’agent implique souvent des dizaines ou des centaines d’appels au modèle, avec beaucoup d’entrées provenant du prompt système, du schéma d’outils, et de la mémoire historique. Ces contenus sont hautement réutilisables, et c’est précisément là que les coûts peuvent « exploser ».

DeepSeek V4 se concentre justement sur la réduction de ces coûts de « calcul répété ».


Graphique : DeepSeek V4 transforme le « coût » en une variable optimisable par l’ingénierie. À gauche, l’alignement des capacités ; à droite, la chute des coûts.
Dans un contexte de million de tokens, la puissance de calcul d’inférence et l’utilisation du cache diminuent considérablement, rendant les tâches longues moins coûteuses de façon exponentielle. C’est la véritable force motrice derrière cette guerre des prix.

En regardant l’évolution concrète de ses propres produits, cette tendance est également visible. La génération précédente, V3.2, avait un prix d’entrée de 2 yuan (cache non hit), 0,2 yuan (cache hit), et une sortie à 3 yuan ; tandis que V4-Flash a réduit l’entrée à 1 yuan et la sortie à 2 yuan, la réduction la plus immédiate étant la « réduction du prix d’entrée en cas de cache miss » de moitié. Dans les scénarios d’appels multiples, le coût d’entrée cumulé représente souvent la majorité, et cette réduction a un effet de levier bien supérieur à une simple baisse de prix.

La tarification du Pro, à 12 et 24 yuan, semble une augmentation d’un ordre de grandeur par rapport à Flash, mais DeepSeek indique dans son rapport technique que « la version Pro, limitée par la capacité de calcul haut de gamme, devrait voir ses prix fortement baisser dans la seconde moitié de l’année, avec la mise en service en masse des nœuds de supercalculateur Ascend 950 ». On peut comprendre que le prix actuel reflète une contrainte d’offre, pas le coût réel.

Les deux modèles ont aussi des positions clairement définies : Flash vise les tâches massives à haute concurrence et faible latence, tandis que Pro supporte des processus d’agents complexes, la génération de code sur de longues chaînes, et l’inférence profonde. Selon le rapport technique, DeepSeek commence à évaluer la capacité de V4 en tant qu’agent de code dans des tâches de développement réelles, et le compare directement à la série Claude dans ses évaluations internes.

Les coulisses du « boucher des prix »

Comment DeepSeek a-t-il réussi à faire baisser les prix ?

Les mécanismes d’attention traditionnels, lorsqu’ils traitent de longs textes, voient leur calcul augmenter au carré de la longueur de la séquence. Par exemple, pour 1 million de tokens, la charge de calcul est 64 fois celle de 128K. C’est la raison pour laquelle, auparavant, « le contexte d’un million » était difficile à rendre commercialement viable : la mémoire GPU pour le cache KV augmente linéairement avec la longueur, et traiter 1 million de tokens nécessitait soit réduire la parallélisation, soit multiplier par plusieurs machines, ce qui n’était pas rentable.

C’est aussi la raison pour laquelle les fournisseurs étrangers adoptent généralement une stratégie de « fenêtre courte par défaut, avec surcharge pour les fenêtres longues » : Anthropic, par exemple, facture séparément pour plus de 200K tokens, avec un doublement du prix.

Graphique : le CSA (attention sparse compressée) de DeepSeek V4, qui compresse d’abord le cache KV, puis utilise Top-k pour sélectionner les contextes clés, ne calcule que l’information la plus importante, réduisant ainsi considérablement la charge de calcul et la consommation de mémoire dans les scénarios de texte long.

Une compréhension simple de la solution V4 est qu’elle superpose « compression » et « sparsité ». Elle compresse d’abord chaque m tokens du cache KV en un seul élément (taux de compression CSA 4, taux HCA 128), puis ne fait attention qu’aux top-k éléments clés pour chaque requête. La première étape réduit la mémoire, la seconde réduit la puissance de calcul, résolvant ainsi deux goulots d’étranglement.

Graphique : le HCA (attention à compression renforcée) de DeepSeek V4, qui compresse au maximum le cache KV de séquences plus longues en quelques représentations, tout en conservant l’information locale, et réduit encore la charge de calcul et de stockage, étant la clé pour faire baisser le coût du contexte d’un million.

Le rapport technique indique qu’à 1 million de tokens, la FLOP d’inférence par token du V4-Pro n’est que 27 % de celle du V3.2, et l’utilisation du cache KV n’est que 10 %. Le V4-Flash est encore plus radical, avec 10 % des FLOP et 7 % du cache KV de V3.2. En superposant la quantification FP4, l’optimiseur Muon, le kernel maison MegaMoE, et d’autres optimisations infrastructurelles, V4 a optimisé et compressé toute la chaîne, de l’entraînement à l’inférence.

Une architecture à faible coût est une conséquence naturelle. Un membre clé d’une grande entreprise de modèles en Chine a confié à Tencent Tech : « La tarification API des grands modèles chinois (y compris la leur) dépend principalement de leur capacité de coût. Aucune entreprise ne pratique une ‘course aux prix’ sans considération de coût. Donc, l’avantage en coût à la base est crucial. »

Le CTO d’Alibaba Cloud, Zhou Jingren, a également souligné : « Chaque baisse de prix est un processus très sérieux, qui doit prendre en compte le développement de l’industrie, les retours des développeurs et des entreprises, etc. Ce n’est pas une simple guerre de prix. »

Pourquoi cette « baisse de prix » est-elle plus importante cette fois ?

Du côté de la demande, il est plus urgent de faire baisser systématiquement les coûts. Le dernier rapport Token Economics de Deloitte cite l’exemple d’AT&T : après avoir introduit un système d’agents, la consommation quotidienne de tokens est passée de 8 milliards à 27 milliards. Une analyse de Stevens Institute of Technology indique que dans un système d’agents à plusieurs tours, il existe un piège de croissance quadratique des tokens : à la 10e étape, le nombre de tokens par appel peut atteindre 7 fois celui de la première étape.

Le prix du modèle détermine si un agent peut fonctionner commercialement.

Un article de CIO magazine, il y a trois semaines, cite le PDG d’Addo AI, Ayesha Khanna, qui estime : « Si vous faites fonctionner un agent continuant à se connecter à une API de modèle de pointe, avec une consommation élevée de tokens, un contexte long, une inférence multi-étapes, et beaucoup de sorties, la rentabilité va rapidement se détériorer. Dans certains cas, le coût d’une tâche unique peut dépasser celui d’un humain. » C’est le principal obstacle à la commercialisation des agents : la technique peut fonctionner, mais la comptabilité ne suit pas.

En regardant les actions de V4, presque toutes visent à résoudre ce problème : faire du contexte d’un million une capacité par défaut, pour que l’agent n’ait pas à payer un surcoût pour un contexte long ; faire baisser le prix d’entrée en cache hit au niveau le plus bas du secteur, pour s’adapter à la caractéristique des scénarios d’agent où le même prompt système est réutilisé plusieurs fois. Le rapport technique mentionne aussi que V4 conserve intégralement tout le contenu de raisonnement dans les scénarios d’appel d’outils (alors que V3.2 le supprimait au début de chaque nouveau message utilisateur), pour répondre aux besoins de multi-tours des agents.

V4 peut-il faire baisser la courbe de coût de toute l’IA agentique ?

Enfin, une question cruciale : V4 peut-il faire baisser toute la courbe de coût de l’industrie de l’IA agentique ? La réponse est probablement plus complexe cette fois.

Premièrement, si d’autres acteurs suivent, en réduisant aussi leurs prix, la courbe de coût globale pourrait effectivement descendre. Mais, comme indiqué plus haut, la tarification dépend principalement de la structure de coûts, et la marge des fabricants ne peut pas être comprimée à court terme. La possibilité de suivre est donc limitée.

Deuxièmement, la capacité de calcul haut de gamme. Comme mentionné dans le rapport technique, la capacité de service de V4-Pro est limitée. La stabilité de son prix dépendra du déploiement massif des super-nœuds Ascend 950 dans le second semestre, et des progrès d’ingénierie de DeepSeek sur différentes plateformes matérielles.

Le rapport indique que DeepSeek a validé la parallélisation fine sur deux plateformes : GPU Nvidia et NPU Huawei Ascend. C’est la première fois que Huawei et Nvidia sont listés côte à côte dans la validation matérielle, ce qui marque une tentative de déconnexion de la dépendance à une seule plateforme pour l’inférence. Si cette validation est efficace, cela aura une valeur stratégique à long terme pour l’industrie chinoise des grands modèles.

Troisièmement, la structure des tokens dans les scénarios d’agents peut-elle encore être optimisée ? Les agents consomment beaucoup de tokens, dont une partie est gaspillée par la conception même de l’architecture. Au-delà de la baisse des prix, la façon dont on utilise les tokens dans les agents est une autre question. Même si V4 réduit le prix unitaire à son minimum, une mauvaise conception d’agent peut faire exploser la facture. C’est là que l’intérêt des systèmes de gestion (Harness) très populaires aujourd’hui prend tout son sens.

DeepSeek V4, en réalité, a réussi à faire baisser le prix en se concentrant sur cette partie « calcul répété ».


Graphique : DeepSeek V4 transforme le « coût » en une variable pouvant être optimisée par l’ingénierie. À gauche, l’alignement des capacités ; à droite, la chute des coûts.
Dans un contexte de million de tokens, la puissance de calcul d’inférence et l’utilisation du cache diminuent considérablement, rendant les longues tâches beaucoup moins coûteuses. C’est la véritable force motrice derrière cette guerre des prix.

En regardant l’évolution concrète de ses propres produits, cette tendance est également visible. La version précédente, V3.2, avait un prix d’entrée de 2 yuan (cache non hit), 0,2 yuan (cache hit), et une sortie à 3 yuan ; tandis que V4-Flash a réduit l’entrée à 1 yuan et la sortie à 2 yuan, la réduction la plus immédiate étant la « réduction du prix d’entrée en cas de cache miss » de moitié. Dans les scénarios d’appels multiples, le coût d’entrée cumulé représente souvent la majorité, et cette réduction a un effet de levier bien supérieur à une simple baisse de prix.

Le tarif du Pro, à 12 et 24 yuan, semble une augmentation d’un ordre de grandeur par rapport à Flash, mais DeepSeek indique dans son rapport technique que « la version Pro, limitée par la capacité de calcul haut de gamme, devrait voir ses prix fortement baisser dans la seconde moitié de l’année, avec la mise en service en masse des nœuds Ascend 950 ». On peut comprendre que le prix actuel reflète une contrainte d’offre, pas le coût réel.

Les deux modèles ont aussi des positions clairement définies : Flash vise les tâches massives à haute concurrence et faible latence, tandis que Pro supporte des processus d’agents complexes, la génération de code sur de longues chaînes, et l’inférence profonde. Selon le rapport technique, DeepSeek commence à évaluer la capacité de V4 en tant qu’agent de code dans des tâches de développement réelles, et le compare directement à la série Claude dans ses évaluations internes.

Les coulisses du « boucher des prix »

Comment DeepSeek a-t-il réussi à faire baisser les prix ?

Les mécanismes d’attention traditionnels, lorsqu’ils traitent de longs textes, voient leur calcul augmenter au carré de la longueur de la séquence. Par exemple, pour 1 million de tokens, la charge de calcul est 64 fois celle de 128K. C’est la raison pour laquelle, auparavant, « le contexte d’un million » était difficile à rendre commercialement viable : la mémoire GPU pour le cache KV augmente linéairement avec la longueur, et traiter 1 million de tokens nécessitait soit réduire la parallélisation, soit multiplier par plusieurs machines, ce qui n’était pas rentable.

C’est aussi la raison pour laquelle les fournisseurs étrangers adoptent généralement une stratégie de « fenêtre courte par défaut, avec surcharge pour les fenêtres longues » : Anthropic, par exemple, facture séparément pour plus de 200K tokens, avec un doublement du prix.

Graphique : le CSA (attention sparse compressée) de DeepSeek V4, qui compresse d’abord le cache KV, puis utilise Top-k pour sélectionner les contextes clés, ne calcule que l’information la plus importante, réduisant ainsi considérablement la charge de calcul et la consommation de mémoire dans les scénarios de texte long.

Une compréhension simple de la solution V4 est qu’elle superpose « compression » et « sparsité ». Elle compresse d’abord chaque m tokens du cache KV en un seul élément (taux de compression CSA 4, taux HCA 128), puis ne fait attention qu’aux top-k éléments clés pour chaque requête. La première étape réduit la mémoire, la seconde réduit la puissance de calcul, résolvant ainsi deux goulots d’étranglement.

Graphique : le HCA (attention à compression renforcée) de DeepSeek V4, qui compresse au maximum le cache KV de séquences plus longues en quelques représentations, tout en conservant l’information locale, et réduit encore la charge de calcul et de stockage, étant la clé pour faire baisser le coût du contexte d’un million.

Le rapport technique indique qu’à 1 million de tokens, la FLOP d’inférence par token du V4-Pro n’est que 27 % de celle du V3.2, et l’utilisation du cache KV n’est que 10 %. Le V4-Flash est encore plus radical, avec 10 % des FLOP et 7 % du cache KV de V3.2. En superposant la quantification FP4, l’optimiseur Muon, le kernel maison MegaMoE, et d’autres optimisations infrastructurelles, V4 a optimisé et compressé toute la chaîne, de l’entraînement à l’inférence.

Une architecture à faible coût est une conséquence naturelle. Un membre clé d’une grande entreprise de modèles en Chine a confié à Tencent Tech : « La tarification API des grands modèles chinois (y compris la leur) dépend principalement de leur capacité de coût. Aucune entreprise ne pratique une ‘course aux prix’ sans considération de coût. Donc, l’avantage en coût à la base est crucial. »

Le CTO d’Alibaba Cloud, Zhou Jingren, a également souligné : « Chaque baisse de prix est un processus très sérieux, qui doit prendre en compte le développement de l’industrie, les retours des développeurs et des entreprises, etc. Ce n’est pas une simple guerre de prix. »

Pourquoi cette « baisse de prix » est-elle plus importante cette fois ?

Du côté de la demande, il est plus urgent de faire baisser systématiquement les coûts. Le dernier rapport Token Economics de Deloitte cite l’exemple d’AT&T : après avoir introduit un système d’agents, la consommation quotidienne de tokens est passée de 8 milliards à 27 milliards. Une analyse de Stevens Institute of Technology indique que dans un système d’agents à plusieurs tours, il existe un piège de croissance quadratique des tokens : à la 10e étape, le nombre de tokens par appel peut atteindre 7 fois celui de la première étape.

Le prix du modèle détermine si un agent peut fonctionner commercialement.

Un article de CIO magazine, il y a trois semaines, cite le PDG d’Addo AI, Ayesha Khanna, qui estime : « Si vous faites fonctionner un agent continuant à se connecter à une API de modèle de pointe, avec une consommation élevée de tokens, un contexte long, une inférence multi-étapes, et beaucoup de sorties, la rentabilité va rapidement se détériorer. Dans certains cas, le coût d’une tâche unique peut dépasser celui d’un humain. » C’est le principal obstacle à la commercialisation des agents : la technique peut fonctionner, mais la comptabilité ne suit pas.

En regardant les actions de V4, presque toutes visent à résoudre ce problème : faire du contexte d’un million une capacité par défaut, pour que l’agent n’ait pas à payer un surcoût pour un contexte long ; faire baisser le prix d’entrée en cache hit au niveau le plus bas du secteur, pour s’adapter à la caractéristique des scénarios d’agent où le même prompt système est réutilisé plusieurs fois. Le rapport technique mentionne aussi que V4 conserve intégralement tout le contenu de raisonnement dans les scénarios d’appel d’outils (alors que V3.2 le supprimait au début de chaque nouveau message utilisateur), pour répondre aux besoins de multi-tours des agents.

V4 peut-il faire baisser la courbe de coût de toute l’IA agentique ?

Enfin, une question cruciale : V4 peut-il faire baisser toute la courbe de coût de l’industrie de l’IA agentique ? La réponse est probablement plus complexe cette fois.

Premièrement, si d’autres acteurs suivent, en réduisant aussi leurs prix, la courbe de coût globale pourrait effectivement descendre. Mais, comme indiqué plus haut, la tarification dépend principalement de la structure de coûts, et la marge des fabricants ne peut pas être comprimée à court terme. La possibilité de suivre est donc limitée.

Deuxièmement, la capacité de calcul haut de gamme. Comme mentionné dans le rapport technique, la capacité de service de V4-Pro est limitée. La stabilité de son prix dépendra du déploiement massif des super-nœuds Ascend 950 dans le second semestre, et des progrès d’ingénierie de DeepSeek sur différentes plateformes matérielles.

Le rapport indique que DeepSeek a validé la parallélisation fine sur deux plateformes : GPU Nvidia et NPU Huawei Ascend. C’est la première fois que Huawei et Nvidia sont listés côte à côte dans la validation matérielle, ce qui marque une tentative de déconnexion de la dépendance à une seule plateforme pour l’inférence. Si cette validation est efficace, cela aura une valeur stratégique à long terme pour l’industrie chinoise des grands modèles.

Troisièmement, la structure des tokens dans les scénarios d’agents peut-elle encore être optimisée ? Les agents consomment beaucoup de tokens, dont une partie est gaspillée par la conception même de l’architecture. Au-delà de la baisse des prix, la façon dont on utilise les tokens dans les agents est une autre question. Même si V4 réduit le prix unitaire à son minimum, une mauvaise conception d’agent peut faire exploser la facture. C’est là que l’intérêt des systèmes de gestion (Harness) très populaires aujourd’hui prend tout son sens.

Deepseek V4 préversion a effectivement réussi à faire baisser le prix en se concentrant sur cette partie « calcul répété ».


Graphique : DeepSeek V4 transforme le « coût » en une variable pouvant être optimisée par l’ingénierie. À gauche, l’alignement des capacités ; à droite, la chute des coûts.
Dans un contexte de million de tokens, la puissance de calcul d’inférence et l’utilisation du cache diminuent considérablement, rendant les longues tâches beaucoup moins coûteuses. C’est la véritable force motrice derrière cette guerre des prix.

En regardant l’évolution concrète de ses propres produits, cette tendance est également visible. La version précédente, V3.2, avait un prix d’entrée de 2 yuan (cache non hit), 0,2 yuan (cache hit), et une sortie à 3 yuan ; tandis que V4-Flash a réduit l’entrée à 1 yuan et la sortie à 2 yuan, la réduction la plus immédiate étant la « réduction du prix d’entrée en cas de cache miss » de moitié. Dans les scénarios d’appels multiples, le coût d’entrée cumulé représente souvent la majorité, et cette réduction a un effet de levier bien supérieur à une simple baisse de prix.

Le tarif du Pro, à 12 et 24 yuan, semble une augmentation d’un ordre de grandeur par rapport à Flash, mais DeepSeek indique dans son rapport technique que « la version Pro, limitée par la capacité de calcul haut de gamme, devrait voir ses prix fortement baisser dans la seconde moitié de l’année, avec la mise en service en masse des nœuds Ascend 950 ». On peut comprendre que le prix actuel reflète une contrainte d’offre, pas le coût réel.

Les deux modèles ont aussi des positions clairement définies : Flash vise les tâches massives à haute concurrence et faible latence, tandis que Pro supporte des processus d’agents complexes, la génération de code sur de longues chaînes, et l’inférence profonde. Selon le rapport technique, DeepSeek commence à évaluer la capacité de V4 en tant qu’agent de code dans des tâches de développement réelles, et le compare directement à la série Claude dans ses évaluations internes.

Les coulisses du « boucher des prix »

Comment DeepSeek a-t-il réussi à faire baisser les prix ?

Les mécanismes d’attention traditionnels, lorsqu’ils traitent de longs textes, voient leur calcul augmenter au carré de la longueur de la séquence. Par exemple, pour 1 million de tokens, la charge de calcul est 64 fois celle de 128K. C’est la raison pour laquelle, auparavant, « le contexte d’un million » était difficile à rendre commercialement viable : la mémoire GPU pour le cache KV augmente linéairement avec la longueur, et traiter 1 million de tokens nécessitait soit réduire la parallélisation, soit multiplier par plusieurs machines, ce qui n’était pas rentable.

C’est aussi la raison pour laquelle les fournisseurs étrangers adoptent généralement une stratégie de « fenêtre courte par défaut, avec surcharge pour les fenêtres longues » : Anthropic, par exemple, facture séparément pour plus de 200K tokens, avec un doublement du prix.

Graphique : le CSA (attention sparse compressée) de DeepSeek V4, qui compresse d’abord le cache KV, puis utilise Top-k pour sélectionner les contextes clés, ne calcule que l’information la plus importante, réduisant ainsi considérablement la charge de calcul et la consommation de mémoire dans les scénarios de texte long.

Une compréhension simple de la solution V4 est qu’elle superpose « compression » et « sparsité ». Elle compresse d’abord chaque m tokens du cache KV en un seul élément (taux de compression CSA 4, taux HCA 128), puis ne fait attention qu’aux top-k éléments clés pour chaque requête. La première étape réduit la mémoire, la seconde réduit la puissance de calcul, résolvant ainsi deux goulots d’étranglement.

Graphique : le HCA (attention à compression renforcée) de DeepSeek V4, qui compresse au maximum le cache KV de séquences plus longues en quelques représentations, tout en conservant l’information locale, et réduit encore la charge de calcul et de stockage, étant la clé pour faire baisser le coût du contexte d’un million.

Le rapport technique indique qu’à 1 million de tokens, la FLOP d’inférence par token du V4-Pro n’est que 27 % de celle du V3.2, et l’utilisation du cache KV n’est que 10 %. Le V4-Flash est encore plus radical, avec 10 % des FLOP et 7 % du cache KV de V3.2. En superposant la quantification FP4, l’optimiseur Muon, le kernel maison MegaMoE, et d’autres optimisations infrastructurelles, V4 a optimisé et compressé toute la chaîne, de l’entraînement à l’inférence.

Une architecture à faible coût est une conséquence naturelle. Un membre clé d’une grande entreprise de modèles en Chine a confié à Tencent Tech : « La tarification API des grands modèles chinois (y compris la leur) dépend principalement de leur capacité de coût. Aucune entreprise ne pratique une ‘course aux prix’ sans considération de coût. Donc, l’avantage en coût à la base est crucial. »

Le CTO d’Alibaba Cloud, Zhou Jingren, a également souligné : « Chaque baisse de prix est un processus très sérieux, qui doit prendre en compte le développement de l’industrie, les retours des développeurs et des entreprises, etc. Ce n’est pas une simple guerre de prix. »

Pourquoi cette « baisse de prix » est-elle plus importante cette fois ?

Du côté de la demande, il est plus urgent de faire baisser systématiquement les coûts. Le dernier rapport Token Economics de Deloitte cite l’exemple d’AT&T : après avoir introduit un système d’agents, la consommation quotidienne de tokens est passée de 8 milliards à 27 milliards. Une analyse de Stevens Institute of Technology indique que dans un système d’agents à plusieurs tours, il existe un piège de croissance quadratique des tokens : à la 10e étape, le nombre de tokens par appel peut atteindre 7 fois celui de la première étape.

Le prix du modèle détermine si un agent peut fonctionner commercialement.

Un article de CIO magazine, il y a trois semaines, cite le PDG d’Addo AI, Ayesha Khanna, qui estime : « Si vous faites fonctionner un agent continuant à se connecter à une API de modèle de pointe, avec une consommation élevée de tokens, un contexte long, une inférence multi-étapes, et beaucoup de sorties, la rentabilité va rapidement se détériorer. Dans certains cas, le coût d’une tâche unique peut dépasser celui d’un humain. » C’est le principal obstacle à la commercialisation des agents : la technique peut fonctionner, mais la comptabilité ne suit pas.

En regardant les actions de V4, presque toutes visent à résoudre ce problème : faire du contexte d’un million une capacité par défaut, pour que l’agent n’ait pas à payer un surcoût pour un contexte long ; faire baisser le prix d’entrée en cache hit au niveau le plus bas du secteur, pour s’adapter à la caractéristique des scénarios d’agent où le même prompt système est réutilisé plusieurs fois. Le rapport technique mentionne aussi que V4 conserve intégralement tout le contenu de raisonnement dans les scénarios d’appel d’outils (alors que V3.2 le supprimait au début de chaque nouveau message utilisateur), pour répondre aux besoins de multi-tours des agents.

V4 peut-il faire baisser la courbe de coût de toute l’IA agentique ?

Enfin, une question cruciale : V4 peut-il faire baisser toute la courbe de coût de l’industrie de l’IA agentique ? La réponse est probablement plus complexe cette fois.

Premièrement, si d’autres acteurs suivent, en réduisant aussi leurs prix, la courbe de coût globale pourrait effectivement descendre. Mais, comme indiqué plus haut, la tarification dépend principalement de la structure de coûts, et la marge des fabricants ne peut pas être comprimée à court terme. La possibilité de suivre est donc limitée.

Deuxièmement, la capacité de calcul haut de gamme. Comme mentionné dans le rapport technique, la capacité de service de V4-Pro est limitée. La stabilité de son prix dépendra du déploiement massif des super-nœuds Ascend 950 dans le second semestre, et des progrès d’ingénierie de DeepSeek sur différentes plateformes matérielles.

Le rapport indique que DeepSeek a validé la parallélisation fine sur deux plateformes : GPU Nvidia et NPU Huawei Ascend. C’est la première fois que Huawei et Nvidia sont listés côte à côte dans la validation matérielle, ce qui marque une tentative de déconnexion de la dépendance à une seule plateforme pour l’inférence. Si cette validation est efficace, cela aura une valeur stratégique à long terme pour l’industrie chinoise des grands modèles.

Troisièmement, la structure des tokens dans les scénarios d’agents peut-elle encore être optimisée ? Les agents consomment beaucoup de tokens, dont une partie est gaspillée par la conception même de l’architecture. Au-delà de la baisse des prix, la façon dont on utilise les tokens dans les agents est une autre question. Même si V4 réduit le prix unitaire à son minimum, une mauvaise conception d’agent peut faire exploser la facture. C’est là que l’intérêt des systèmes de gestion (Harness) très populaires aujourd’hui prend tout son sens.

Deepseek V4, en réalité, a réussi à faire baisser le prix en se concentrant sur cette partie « calcul répété ».


Graphique : DeepSeek V4 transforme le « coût » en une variable pouvant être optimisée par l’ingénierie. À gauche, l’alignement des capacités ; à droite, la chute des coûts.
Dans un contexte de million de tokens, la puissance de calcul d’inférence et l’utilisation du cache diminuent considérablement, rendant les longues tâches beaucoup moins coûteuses. C’est la véritable force motrice derrière cette guerre des prix.

En regardant l’évolution concrète de ses propres produits, cette tendance est également visible. La version précédente, V3.2, avait un prix d’entrée de 2 yuan (cache non hit), 0,2 yuan (cache hit), et une sortie à 3 yuan ; tandis que V4-Flash a réduit l’entrée à 1 yuan et la sortie à 2 yuan, la réduction la plus immédiate étant la « réduction du prix d’entrée en cas de cache miss » de moitié. Dans les scénarios d’appels multiples, le coût d’entrée cumulé représente souvent la majorité, et cette réduction a un effet de levier bien supérieur à une simple baisse de prix.

Le tarif du Pro, à 12 et 24 yuan, semble une augmentation d’un ordre de grandeur par rapport à Flash, mais DeepSeek indique dans son rapport technique que « la version Pro, limitée par la capacité de calcul haut de gamme, devrait voir ses prix fortement baisser dans la seconde moitié de l’année, avec la mise en service en masse des nœuds Ascend 950 ». On peut comprendre que le prix actuel reflète une contrainte d’offre, pas le coût réel.

Les deux modèles ont aussi des positions clairement définies : Flash vise les tâches massives à haute concurrence et faible latence, tandis que Pro supporte des processus d’agents complexes, la génération de code sur de longues chaînes, et l’inférence profonde. Selon le rapport technique, DeepSeek commence à évaluer la capacité de V4 en tant qu’agent de code dans des tâches de développement réelles, et le compare directement à la série Claude dans ses évaluations internes.

Les coulisses du « boucher des prix »

Comment DeepSeek a-t-il réussi à faire baisser les prix ?

Les mécanismes d’attention traditionnels, lorsqu’ils traitent de longs textes, voient leur calcul augmenter au carré de la longueur de la séquence. Par exemple, pour 1 million de tokens, la charge de calcul est 64 fois celle de 128K. C’est la raison pour laquelle, auparavant, « le contexte d’un million » était difficile à rendre commercialement viable : la mémoire GPU pour le cache KV augmente linéairement avec la longueur, et traiter 1 million de tokens nécessitait soit réduire la parallélisation, soit multiplier par plusieurs machines, ce qui n’était pas rentable.

C’est aussi la raison pour laquelle les fournisseurs étrangers adoptent généralement une stratégie de « fenêtre courte par défaut, avec surcharge pour les fenêtres longues » : Anthropic, par exemple, facture séparément pour plus de 200K tokens, avec un doublement du prix.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler