Le "serveur occupé" de DeepSeek rend tout le monde fou, mais qu'est-ce qui se cache derrière ?

Source de l'image: Générée par une IA sans frontières

Les réponses fréquentes de DeepSeek avec "serveur occupé, veuillez réessayer plus tard" rendent les utilisateurs de partout fous.

DeepSeek, qui n'était pas très connu du grand public auparavant, a gagné en popularité depuis le lancement de son modèle linguistique V3, qui vise à concurrencer le GPT 40, le 26 décembre 2024. Le 20 janvier, DeepSeek a ensuite lancé son modèle linguistique R1 pour rivaliser avec l'OpenAI 01. Par la suite, en raison de la qualité élevée des réponses générées par le mode de "réflexion approfondie" et des signaux positifs révélant une possible forte baisse des coûts de formation du modèle en amont, la société et l'application sont sorties de l'ombre de manière spectaculaire. Depuis lors, DeepSeek R1 a été confronté à des engorgements constants, avec des interruptions intermittentes de sa fonction de recherche en ligne et le mode de réflexion approfondie affichant fréquemment un message de "serveur occupé", des problèmes qui ont grandement perturbé de nombreux utilisateurs.

Il y a quelques jours, DeepSeek a commencé à connaître des interruptions de service. Le 27 janvier au midi, le site officiel de DeepSeek affichait à plusieurs reprises "deepseek网页/api不可用". Ce jour-là, DeepSeek est devenu l'application la plus téléchargée du week-end sur iPhone, dépassant ChatGPT dans le classement des téléchargements de la région américaine.

Le 5 février, 26 jours après le lancement de DeepSeek sur mobile, l'activité quotidienne a dépassé les 40 millions, tandis que l'activité quotidienne de ChatGPT sur mobile était de 54,95 millions, soit 74,3 % de DeepSeek. Alors que DeepSeek était sur le point de sortir de sa forte courbe de croissance, les critiques sur la surcharge de ses serveurs affluaient, et les utilisateurs du monde entier commençaient à rencontrer des problèmes de plantage lorsqu'ils posaient quelques questions, avec diverses alternatives d'accès apparaissant, telles que le site Web de remplacement de DeepSeek, les principaux fournisseurs de services cloud, fabricants de puces et entreprises d'infrastructure se mettant également en ligne, et des tutoriels de déploiement personnel se multipliant. Cependant, la frustration des gens n'a pas diminué : presque tous les principaux fabricants mondiaux affirment soutenir le déploiement de DeepSeek, mais les utilisateurs locaux continuent de se plaindre de la stabilité du service.

Que s'est-il vraiment passé derrière tout cela ?

Les gens habitués à ChatGPT ne supportent pas DeepSeek qui ne s'ouvre pas.

Les gens sont mécontents de la "charge occupée du serveur DeepSeek", car les applications AI haut de gamme auparavant dominées par ChatGPT ont rarement des ralentissements.

Depuis le lancement du service OpenAI, bien que ChatGPT ait également connu plusieurs pannes de niveau P0 (le niveau d'incident le plus grave), dans l'ensemble, il est relativement fiable, a trouvé un équilibre entre l'innovation et la stabilité, et est progressivement devenu un élément clé similaire aux services cloud traditionnels.

Le nombre de pannes de ChatGPT n'est pas très élevé.

Le processus de raisonnement de ChatGPT est relativement stable, comprenant deux étapes: l'encodage et le décodage. Lors de l'étape d'encodage, le texte d'entrée est converti en vecteur contenant des informations sémantiques sur le texte d'entrée. Dans l'étape de décodage, ChatGPT utilise le texte précédemment généré comme contexte, générant le mot ou la phrase suivant à l'aide du modèle Transformer, jusqu'à ce qu'une phrase complète satisfaisant aux exigences soit générée. Le grand modèle lui-même fait partie de l'architecture du décodeur, et l'étape de décodage est un processus de sortie de jeton par jeton (l'unité minimale de traitement du texte par le grand modèle). Chaque fois que ChatGPT est interrogé, un processus de raisonnement est lancé.

Par exemple, si vous demandez à ChatGPT : "Comment vas-tu aujourd'hui ?", ChatGPT encodera cette phrase, générera des représentations d'attention pour chaque couche, prédira le premier jeton de sortie "je" en fonction des représentations d'attention de tous les jetons précédents, puis décodera en concaténant "je" avec "Comment vas-tu aujourd'hui ?" pour obtenir "Comment vas-tu aujourd'hui ? je", générera de nouvelles représentations d'attention, puis prédira le jeton suivant : "de", et ainsi de suite en bouclant sur les étapes une et deux, pour finalement obtenir "Comment vas-tu aujourd'hui ? Mon humeur est bonne."

L'outil de déploiement de conteneurs Kubernetes est le "commandant en chef" de ChatGPT, chargé de planifier et d'allouer les ressources du serveur. Lorsque le nombre d'utilisateurs dépasse largement la capacité de contrôle du plan de contrôle de Kubernetes, le système ChatGPT s'effondre complètement.

Le nombre total de pannes de ChatGPT n'est pas trop élevé, mais cela repose sur de puissantes ressources pour assurer un fonctionnement stable, avec une puissante puissance de calcul en arrière-plan, un aspect souvent négligé par les gens.

En général, les exigences en termes de puissance de calcul sont moins élevées pour le traitement de l'inférence que pour l'apprentissage, car les données traitées sont souvent de petite taille. Selon les estimations de certains professionnels de l'industrie, lors du processus d'inférence sur de grands modèles normaux, la consommation principale de la mémoire vidéo est liée aux poids des paramètres du modèle, représentant environ 80 % ou plus. En réalité, parmi les multiples modèles intégrés dans ChatGPT, les tailles par défaut des modèles sont toutes inférieures aux 671B du DeepSeek-R1, et avec la puissance de calcul GPU bien plus importante de ChatGPT que celle de DeepSeek, il présente naturellement des performances plus stables que le DS-R1.

DeepSeek-V3 et R1 sont tous deux des modèles de 671B, le processus de démarrage du modèle est le processus de raisonnement, la puissance de calcul lors du raisonnement doit correspondre à la quantité d'utilisateurs, par exemple, si vous avez 100 millions d'utilisateurs, vous avez besoin d'équiper 100 millions de cartes graphiques, non seulement c'est énorme, mais cela est indépendant de la puissance de calcul lors de l'entraînement et n'est pas lié. De toutes les informations disponibles, il est évident que les cartes graphiques et la puissance de calcul de DS sont nettement insuffisantes, ce qui entraîne des ralentissements fréquents.

Cette comparaison n'est pas familière pour les utilisateurs habitués à l'expérience fluide de ChatGPT, en particulier en cette période où leur intérêt pour R1 est de plus en plus grandissant.

2, carte, carte ou carte

De plus, une comparaison attentive révèle que les situations rencontrées par OpenAI et DeepSeek sont très différentes.

Le premier a Microsoft en tant que soutien, en tant que plate-forme exclusive d'OpenAI, Microsoft Azure Cloud Services est équipé de ChatGPT, du générateur d'images Dalle-E 2 et de l'outil de codage automatique GitHub Copilot, ce qui en fait un exemple classique de combinaison de cloud et d'IA, rapidement adopté par l'industrie et devenant rapidement un standard. Le dernier, bien que nouveau, repose principalement sur des centres de données propriétaires, similaires à Google, et ne dépend pas des fournisseurs de services cloud tiers. Silicium a découvert après consultation d'informations publiques que DeepSeek n'a pas coopéré avec les fournisseurs de cloud ou de puces à quelque niveau que ce soit (bien que pendant la période du Nouvel An lunaire, les fournisseurs de cloud aient annoncé que le modèle DeepSeek fonctionnerait sur leur plate-forme, ils n'ont engagé aucune collaboration significative).

De plus, DeepSeek a connu une croissance d'utilisateur sans précédent, ce qui signifie qu'il a également moins de temps de préparation pour répondre aux stimuli par rapport à ChatGPT.

Les performances exceptionnelles de DeepSeek proviennent de l'optimisation globale réalisée au niveau matériel et système. La société mère de DeepSeek, QuantX, a investi 2 milliards de dollars dès 2019 pour construire le cluster de supercalculateurs Firefly-1, stockant discrètement jusqu'à 10 000 cartes graphiques A100 d'ici 2022. Pour un entraînement parallèle plus efficace, DeepSeek a développé en interne le framework d'entraînement HAI LLM. Selon l'industrie, le cluster Firefly pourrait utiliser des milliers à des dizaines de milliers de GPU haute performance (comme les A100/H100 de NVIDIA ou des puces nationales) pour offrir une puissante capacité de calcul parallèle. Actuellement, le cluster Firefly prend en charge l'entraînement de modèles tels que DeepSeek-R1, DeepSeek-MoE, qui atteignent des performances proches du niveau de GPT-4 dans des tâches complexes telles que les mathématiques et le code.

Le cluster Firefly représente l’exploration par DeepSeek de nouvelles architectures et méthodes, et il fait également croire au monde extérieur que grâce à de telles technologies innovantes, DS peut réduire le coût de la formation et peut entraîner R1 avec les performances des meilleurs modèles d’IA à une fraction de la puissance de calcul des modèles occidentaux les plus avancés. Selon les calculs de SemiAnalysis, DeepSeek dispose en fait d’une énorme réserve de puissance de calcul : DeepSeek dispose d’un total de 60 000 cartes GPU NVIDIA, dont 10 000 A100, 10 000 H100, 10 000 H800 « édition spéciale » et 30 000 H20 « édition spéciale ».

Il semble que la quantité de cartes R1 soit assez suffisante. Cependant, en réalité, pour le modèle de raisonnement R1, qui est comparable à l'O3 d'OpenAI, ce type de modèle de raisonnement nécessite un déploiement plus important de puissance de calcul pour la phase de réponse. Cependant, il n'est pas clair actuellement si DS économise la puissance de calcul du coût d'entraînement tout en augmentant considérablement la puissance de calcul du coût de raisonnement.

Il convient de noter que DeepSeek-V3 et DeepSeek-R1 sont tous deux de grands modèles linguistiques, mais ils fonctionnent différemment. DeepSeek-V3 est un modèle d'instructions, similaire à ChatGPT, qui reçoit des mots-clés et génère une réponse correspondante. Mais DeepSeek-R1 est un modèle de raisonnement. Lorsqu'un utilisateur pose une question à R1, il effectue d'abord un grand nombre de processus de raisonnement, puis génère la réponse finale. Les jetons générés par R1 commencent d'abord par de nombreux processus de chaînes de réflexion. Avant de générer une réponse, le modèle explique d'abord la question, la décompose, et tous ces processus de raisonnement sont rapidement générés sous forme de jetons.

Pour Vincent Wen, vice-président de Youtuber Capital, la réserve de puissance de calcul importante de DeepSeek mentionnée précédemment fait référence à la phase d'entraînement, où l'équipe de puissance de calcul peut être planifiée et prévue, et il est peu probable qu'il y ait une pénurie de puissance de calcul. Cependant, la puissance de calcul de raisonnement est plus incertaine car elle dépend principalement de l'échelle et de l'utilisation des utilisateurs, ce qui la rend plus flexible. La puissance de calcul de raisonnement augmentera selon certaines règles, mais avec DeepSeek devenant un produit phénoménal, l'échelle et l'utilisation des utilisateurs ont explosé en peu de temps, ce qui a entraîné une explosion de la demande de puissance de calcul de raisonnement, entraînant des ralentissements.

Le concepteur de produits de modèles actif immédiatement, le développeur indépendant Guicang est convaincu que la principale raison du blocage de la carte DeepSeek est la quantité de cartes, il estime que DS, en tant qu'application mobile la plus téléchargée dans 140 marchés mondiaux actuellement, ne peut plus supporter le blocage actuel de toute façon, même avec de nouvelles cartes, car "la création de nouvelles cartes en nuage prend du temps".

Le coût d'une heure d'exécution des puces telles que NVIDIA A100 et H100 a un prix équitable sur le marché, DeepSeek est plus de 90% moins cher que les modèles similaires d'OpenAI en termes de coût d'inférence des jetons. Cela ne diffère pas beaucoup de nos calculs, donc l'architecture du modèle MOE en elle-même n'est pas le problème principal, mais le nombre de GPU que DS possède détermine le nombre maximal de jetons qu'ils peuvent produire et fournir par minute. Même s'ils peuvent utiliser plus de GPU pour servir les utilisateurs en inférence plutôt que pour la recherche préalable à la formation, il y a une limite à cela.

Certains experts de l'industrie ont également mentionné à SiliconStar que le problème de blocage de DeepSeek réside dans le fait que le cloud privé n'est pas bien configuré.

Les attaques de pirates informatiques sont un autre facteur de blocage pour R1. Le 30 janvier, les médias ont appris de Qihoo 360, une société de cybersécurité, que l'intensité des attaques contre le service en ligne DeepSeek avait soudainement augmenté, les instructions d'attaque ayant augmenté de centaines de fois par rapport au 28 janvier. Le laboratoire Xlab de Qihoo 360 a observé la participation d'au moins deux réseaux de zombies dans l'attaque.

Cependant, ce genre de retard dans le service R1 lui-même a une solution apparemment évidente, qui est de faire appel à des tiers pour fournir le service. C'est aussi le paysage le plus animé que nous ayons vu pendant le Nouvel An chinois - toutes les entreprises ont déployé des services pour répondre à la demande des gens pour DeepSeek.

Le 31 janvier, NVIDIA a annoncé que NVIDIA NIM était maintenant compatible avec DeepSeek-R1. Auparavant, sous l'impact de DeepSeek, la valeur marchande de NVIDIA a chuté de près de 600 milliards de dollars en une nuit. Le même jour, les utilisateurs du cloud AWS d'Amazon ont pu déployer le dernier modèle de base R1 de DeepSeek sur leurs plateformes d'intelligence artificielle, Amazon Bedrock et Amazon SageMaker AI. Par la suite, de nouveaux acteurs de l'IA tels que Perplexity et Cursor ont également massivement adopté DeepSeek. Microsoft a devancé Amazon et NVIDIA en déployant en premier DeepSeek-R1 sur ses services cloud Azure et Github.

Le 4 février, le quatrième jour du Nouvel An, Huawei Cloud, Alibaba Cloud, la plateforme de feu volcanique et le cloud de Tencent ont rejoint le groupe, offrant généralement le service de déploiement de modèles DeepSeek complets et de toutes tailles. Ensuite, il y a des fabricants de puces AI tels que Bi Rentechnology, Hanbo Semiconductor, Ascend et Muxi, qui prétendent avoir adapté la version originale ou une version plus petite de DeepSeek. Du côté des éditeurs de logiciels, Yonyou, Kingdee, etc. intègrent des modèles DeepSeek dans certains produits pour renforcer leur efficacité. Enfin, des fabricants d'appareils terminaux tels que Lenovo, Huawei, certains produits de la gamme Honor intègrent des modèles DeepSeek pour être utilisés comme assistants personnels sur le bord et dans les cockpits intelligents des voitures.

Jusqu'à présent, DeepSeek a attiré un vaste cercle d'amis grâce à sa propre valeur, regroupant des fournisseurs de cloud, des opérateurs, des courtiers et des plates-formes nationales de supercalculateur Internet en Chine et à l'étranger. Comme DeepSeek-R1 est un modèle entièrement open source, les fournisseurs de services connectés en ont tous bénéficié. D'une part, cela a considérablement augmenté la visibilité de DS, mais a également entraîné une plus grande fréquence de blocages. Les fournisseurs de services et DS lui-même sont de plus en plus confrontés à des utilisateurs affluents, sans pour autant trouver la clé pour résoudre le problème de l'utilisation stable.

Étant donné que les modèles DeepSeek V3 et R1 d'origine sont tous deux équipés de 6710 milliards de paramètres, ils sont adaptés à l'exécution sur le cloud. Les fournisseurs de cloud disposent naturellement de capacités de calcul et d'inférence plus importantes, et ils mettent en ligne des services de déploiement associés à DeepSeek afin de réduire les barrières à l'entrée pour les entreprises. Après le déploiement du modèle DeepSeek, ils fournissent une API pour le modèle DS, ce qui est considéré comme offrant une meilleure expérience d'utilisation que celle fournie par DS lui-même.

Cependant, dans la réalité, les problèmes d'expérience de fonctionnement du modèle DeepSeek-R1 n'ont pas été résolus dans les services de chaque entreprise. À l'extérieur, on pense que les fournisseurs de services ne manquent pas de cartes, mais en réalité, les rétroactions instables des développeurs sur le R1 déployé sont tout à fait équivalentes en fréquence, ce qui tient davantage au fait que la quantité de cartes attribuées au R1 pour l'inférence n'est pas très élevée.

"Le niveau de chaleur de R1 reste élevé, les fournisseurs de services doivent tenir compte des autres modèles intégrés, la capacité à fournir des cartes à R1 est très limitée, et le niveau de chaleur de R1 est élevé. Lorsqu'une entreprise propose R1 à un prix relativement bas, elle risque d'être submergée." Le designer de produits de modèles, le développeur indépendant Guicang, a expliqué la raison aux extraterrestres de silicium.

L'optimisation du déploiement du modèle est un domaine vaste qui couvre de nombreux aspects, allant de la formation à la mise en œuvre matérielle réelle, impliquant un travail à plusieurs niveaux. Cependant, pour les cas de blocage de DeepSeek, les raisons peuvent être plus simples, telles qu'un modèle trop volumineux et une préparation d'optimisation insuffisante avant la mise en ligne.

Avant le lancement d'un grand modèle populaire, il rencontrera de nombreux défis techniques, d'ingénierie, commerciaux, etc., tels que la cohérence des données d'entraînement avec les données de l'environnement de production, l'impact de la latence des données sur la réalité du modèle, l'efficacité de l'inférence en ligne et une utilisation excessive des ressources, les capacités de généralisation du modèle étant insuffisantes, ainsi que des aspects techniques tels que la stabilité du service, l'intégration de l'API et du système, etc.

Avant le lancement de nombreux grands modèles populaires, une grande attention est accordée à l'optimisation du raisonnement. Cela est dû au temps de calcul et aux problèmes de mémoire. Le premier concerne une latence de raisonnement trop longue, entraînant une mauvaise expérience utilisateur, voire ne pouvant pas satisfaire les besoins en matière de latence, tels que des phénomènes de gel, tandis que le second concerne le grand nombre de paramètres du modèle, consommant de la mémoire vidéo, voire ne pouvant pas être contenu dans une seule carte GPU, ce qui peut également entraîner des gels.

Wen Tingcan explained to the silicon-based aliens the reason, he said that the service provider encountered challenges in providing the R1 service, which is essentially due to the special structure of the DS model and the large size of the model combined with the MOE (expert mixed structure, an efficient way of calculation) architecture. "(Service provider) optimization takes time, but the market heat has a time window, so it is all first launched and then optimized, rather than fully optimized before going online."

Pour que R1 fonctionne de manière stable, l'essentiel réside désormais dans la capacité de réserve et d'optimisation du côté de l'inférence. Ce que DeepSeek doit faire, c'est trouver un moyen de réduire le coût de l'inférence et de diminuer la sortie de cartes, réduisant ainsi le nombre de jetons émis à chaque fois.

En même temps, le blocage indique également que la puissance de calcul de DS elle-même n'est probablement pas aussi colossale que ce que SemiAnalysis a décrit, la société de fonds Magic Square doit utiliser des cartes, l'équipe de formation DeepSeek doit également utiliser des cartes, et il n'y a pas beaucoup de cartes à distribuer aux utilisateurs. Selon l'évolution actuelle, DeepSeek n'a pas forcément la motivation de dépenser de l'argent pour louer des services à court terme, puis de les fournir gratuitement aux utilisateurs pour une meilleure expérience. Ils sont plus susceptibles d'attendre que le premier lot de modèles commerciaux grand public soit clarifié avant de considérer la question de la location de services, ce qui signifie également que les blocages vont durer un certain temps.

Ils ont probablement besoin de deux actions : 1) mettre en place un mécanisme de paiement pour limiter l'utilisation du modèle des utilisateurs gratuits ; 2) collaborer avec des fournisseurs de services cloud pour utiliser les ressources GPU des autres. La solution temporaire proposée par le développeur Chen Yunfei est largement consensuelle dans l'industrie.

Cependant, à l'heure actuelle, DeepSeek ne semble pas trop pressé de résoudre son problème de "serveur occupé". En tant qu'entreprise poursuivant l'AGI, DeepSeek semble ne pas vouloir se concentrer trop sur cet afflux massif d'utilisateurs. Il est possible que les utilisateurs devront encore s'habituer à l'interface "serveur occupé" dans un avenir proche.

DEEPSEEK-7.76%
GPT14.86%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 1
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)