ردود DeepSeek المتكررة "الخادم مشغول، يرجى المحاولة مرة أخرى لاحقًا" تجعل المستخدمين في جميع أنحاء العالم يشعرون بالجنون.
صعدت DeepSeek ، التي لم تكن معروفة جيدا للجمهور ، إلى الشهرة مع إطلاق V3 ، وهو نموذج لغة تم قياسه مقابل GPT 4o ، في 26 ديسمبر 2024. في 20 يناير ، أصدرت DeepSeek R1 ، وهو نموذج لغوي يقيس OpenAI o1 ، ومن ثم تكون الشركة وتطبيقها خارج الدائرة تماما بسبب الجودة العالية للإجابات الناتجة عن وضع "التفكير العميق" والإشارة الإيجابية إلى أن ابتكارها يكشف أن التكلفة الأولية للتدريب النموذجي قد تنخفض. منذ ذلك الحين ، يعاني DeepSeek R1 من الازدحام ، مع شلل متقطع في وظيفة البحث عبر الإنترنت وتكرار عال من "الخادم مشغول" في وضع التفكير العميق ، مما أزعج عددا كبيرا من المستخدمين.
قبل عدة أيام ، بدأ DeepSeek في تجربة انقطاع في الخادم ، وفي ظهر يوم 27 يناير ، ظهر موقع DeepSeek الرسمي عدة مرات بأن "صفحة / API Deepseek غير متاحة" ، وفي نفس اليوم ، أصبح DeepSeek التطبيق الأكثر تنزيلاً في منطقة الولايات المتحدة خلال عطلة نهاية الأسبوع ، وتفوق في قائمة التنزيلات على ChatGPT.
في 5 فبراير، بعد 26 يومًا من إطلاق DeepSeek على الجانب المحمول، تجاوز عدد المستخدمين النشطين 40 مليونًا يوميًا، في حين بلغ عدد المستخدمين النشطين لـ ChatGPT على الجانب المحمول 54.95 مليون مستخدم يوميًا، مما يمثل 74.3% من DeepSeek. تقريبًا في الوقت الذي تجاوز فيه DeepSeek منحنى النمو الحاد، بدأت الشكاوى بشأن ازدحام الخوادم تتدفق من كل حدب وصوب، حيث بدأ المستخدمون في جميع أنحاء العالم في مواجهة إزعاج توقف الخدمة بمجرد طرح بضعة أسئلة، وبدأت العديد من بدائل الوصول تظهر، مثل موقع DeepSeek البديل، وبدأت الشركات الكبرى لخدمات السحابة وشركات تصنيع الشرائح وشركات البنية التحتية تطلق خدماتها، وكانت الدروس الشخصية متاحة في كل مكان. ومع ذلك، لم يتم تخفيف إحباط الناس: يزعم تقريبًا جميع الشركات الكبرى في العالم أنها تدعم نشر DeepSeek، ولكن مستخدمون من مختلف أنحاء العالم يستمرون في الشكاوى بشأن عدم استقرار الخدمة.
ما الذي حدث في الخلف؟
1، لمن اعتاد على ChatGPT، لا يمكنهم تحمل عدم فتح DeepSeek
كانت شكوى الناس من "انشغال خادم DeepSeek" تأتي من تطبيقات AI الرائدة السابقة التي كانت تعتمد بشكل رئيسي على ChatGPT ونادرًا ما تواجه تأخيرًا.
منذ إطلاق خدمة OpenAI، على الرغم من تعرض ChatGPT لعدة حوادث تعطل من المستوى P0 (أخطر مستوى حوادث)، إلا أنه بشكل عام، فإنه موثوق به نسبياً، وقد وجد التوازن بين الابتكار والاستقرار، وأصبح تدريجياً جزءاً أساسياً مشابهاً لخدمات السحابة التقليدية.
عدد انقطاعات خدمة ChatGPT ليس كبيرًا بشكل كبير
عملية استنتاج ChatGPT مستقرة نسبيًا ، تشمل خطوتي الترميز والفكري ، في مرحلة الترميز ، يتم تحويل النص المدخل إلى متجه يحتوي على معلومات الدلالة للنص المدخل ، وفي مرحلة الفكري ، يستخدم ChatGPT النص الذي تم إنشاؤه سابقًا كسياق ، ويستخدم نموذج Transformer لإنشاء الكلمة أو العبارة التالية ، حتى يتم إنشاء جملة كاملة تلبي الاحتياجات ، ينتمي النموذج الكبير نفسه إلى هندسة الفكري (Decoder) ، ومرحلة الفكري هي عملية إخراج كل رمز (أصغر وحدة يعالجها النموذج الكبير عند معالجة النص) ، عندما يتم سؤال ChatGPT مرة واحدة ، يتم بدء عملية الاستنتاج مرة واحدة.
على سبيل المثال، إذا سألت ChatGPT: “كيف حالك اليوم”، سيرمز ChatGPT هذه الجملة ويولّد تمثيل الانتباه لكل طبقة، وبناءً على تمثيل الانتباه لكل token سابق، يتنبأ بأن يكون الإخراج الأولي “أنا”، ثم بعد ذلك يبدأ في فك التشفير، ويرفق “أنا” إلى “كيف حالك اليوم؟”، ويحصل على “كيف حالك اليوم؟ أنا”، ويحصل على تمثيل انتباه جديد، ثم يتنبأ بالtoken التالي: “جيد”، ويستمر بالخطوات الأولى والثانية وهكذا حتى نهاية المطاف “كيف حالك اليوم؟ حالي جيد جدًا.”
أداة تخطيط الحاويات Kubernetes هي "قائد خلف الكواليس" لـ ChatGPT، حيث تقوم بجدولة وتوزيع موارد الخادم. عندما يتجاوز عبء المستخدمين الوافدة تمامًا قدرة مستوى التحمل لنظام Kubernetes، فإن ذلك يؤدي إلى تعطل كامل لنظام ChatGPT.
عدد حالات شل ChatGPT التي تعاني منها ليست كثيرة جدًا، ولكن وراء ذلك تكمن الموارد القوية التي يعتمد عليها كدعم، وراء الاستقرار الذي يحافظ عليه هو القوة الحسابية القوية، وهذا هو الجانب الذي يتجاهله الناس.
عمومًا، نظرًا لأن حجم بيانات المعالجة الاستدلالية عادة ما يكون صغيرًا، فإن متطلبات القوة الحسابية ليست مرتفعة مثل التدريب. يقدر بعض الخبراء في الصناعة أن أغلب استخدام الذاكرة الظاهرية خلال عملية الاستدلال للنماذج الكبيرة تكون لمعلمات النموذج، تقريبًا تمثل نسبة تفوق 80٪. الحقيقة هي أن في العديد من النماذج المضمنة في ChatGPT، فإن أحجام النماذج الافتراضية أصغر بكثير من 671B في DeepSeek-R1، بالإضافة إلى أن ChatGPT يمتلك قدرة حسابية أكبر بكثير من DeepSeek، مما يظهر بشكل طبيعي أداءً أكثر استقرارًا من DS-R1.
DeepSeek-V3 و R1 هما نموذجان بحجم 671B، حيث يكون عمل تشغيل النموذج عملية الاستدلال، ويجب أن يكون احتياطي الطاقة الحسابية أثناء الاستدلال متناسبًا مع عدد المستخدمين، على سبيل المثال، إذا كان عدد المستخدمين 100 مليون مستخدم، فيجب تجهيز بطاقة رسومات بحجم 100 مليون مستخدم، وليس فقط كبير، بل يعمل مستقلًا عن احتياطي الطاقة الحسابية أثناء التدريب ولا يتأثر به. من خلال المعلومات المتاحة، يبدو أن بطاقة الرسومات واحتياطي الطاقة الحسابية لـ DS غير كافية ولذلك يحدث التعليق بشكل متكرر.
هذا النوع من المقارنة لا يعتاد عليه مستخدمو ChatGPT الذين اعتادوا على تجربة سلسة، خاصة في ظل ازدياد اهتمامهم بـ R1.
2、كارت، كارت، لا زال كارت
وعلاوة على ذلك، فإن المواقف التي واجهتها OpenAI وDeepSeek مختلفة تماما.
الأولى مع دعم مايكروسوفت، كمنصة حصرية لـ OpenAI، يضم خدمة Microsoft Azure السحابية ChatGPT ومُولِّد الصور Dalle-E 2 وأداة البرمجة التلقائية GitHub Copilot، بعد ذلك أصبح هذا التَّجمُع نموذجًا كلاسيكيًا للسحابة + الذكاء الاصطناعي وأصبح انتشاره سريعًا ليصبح معيارًا في الصناعة؛ أما الثانية فعلى الرغم من أنها شركة ناشئة، فإنها في معظم الحالات تعتمد على مراكز البيانات الخاصة بها، مما يجعلها مماثلة لجوجل، ولا تعتمد على مزودي خدمات الحوسبة السحابية الخارجيين. وقد اكتشف سيليكون روبوت بعد البحث في المعلومات العامة أن DeepSeek لم تبدأ أي تعاون مع مزودي السحابة أو الشركات المصنعة للشرائح (على الرغم من أن مزودي السحابة أعلنوا خلال عطلة رأس السنة الصينية بأنهم سيسمحون لنموذج DeepSeek بالعمل على منصاتهم، إلا أنهم لم يبدؤوا أي تعاون ذي معنى حقيقي).
وبالإضافة إلى ذلك، تعرض DeepSeek لزيادة في عدد المستخدمين بشكل غير مسبوق، مما يعني أن وقت التحضير لاستجابتها أقل من ChatGPT.
تعتمد أداء DeepSeek على الأداء المتميز الذي تحققه من خلال تحسينات شاملة على مستوى الأجهزة والنظام. شركة الأم لـ DeepSeek ، Huansquare Quantitative ، قامت ببناء مجموعة حوسبة فائقة تدعى Firefly One بتكلفة 2 مليار دولار في عام 2019 ، وخزنت بالفعل آلاف بطاقات A100 في عام 22 ، ولتحقيق تدريب موازي أكثر كفاءة ، قامت DeepSeek بتطوير إطار تدريب HAI LLM الخاص بها. يُعتقد في الصناعة أن مجموعة Firefly قد تستخدم آلاف إلى عشرات آلاف بطاقات GPU عالية الأداء (مثل NVIDIA A100 / H100 أو رقائق صينية محلية الصنع) لتوفير قدرة حسابية موازية قوية. حاليًا ، تدعم مجموعة Firefly تدريب نماذج مثل DeepSeek-R1 و DeepSeek-MoE ، التي تظهر أداءً يقترب من مستوى GPT-4 في المهام الرياضية والبرمجية وغيرها من المهام المعقدة.
تمثل مجموعة Firefly استكشاف DeepSeek للبنى والأساليب الجديدة ، كما أنها تجعل العالم الخارجي يعتقد أنه من خلال هذه التقنيات المبتكرة ، يمكن ل DS تقليل تكلفة التدريب ، ويمكنه تدريب R1 على أداء أفضل نماذج الذكاء الاصطناعي بجزء بسيط من قوة الحوسبة للنماذج الغربية الأكثر تقدما. وفقا لحسابات SemiAnalysis ، تمتلك DeepSeek بالفعل احتياطيا ضخما من طاقة الحوسبة: تمتلك DeepSeek ما مجموعه 60,000 بطاقة NVIDIA GPU ، بما في ذلك 10,000 A100 و 10,000 H100 و 10,000 "إصدار خاص" H800 و 30,000 "إصدار خاص" H20.
يبدو أن كمية بطاقة R1 وفيرة بالمقارنة مع. ومع ذلك، كنموذج استدلالي، يستهدف R1 O3 من OpenAI، وهذه الفئة من النماذج الاستدلالية تحتاج إلى المزيد من القوة الحسابية للرد، ولكن DS توفر القوة الحسابية على جانب تكلفة التدريب، والتي تزداد بشكل حاد على جانب التكلفة الاستدلالية، ما إذا كانت أعلى أم أقل، ليس واضحًا حتى الآن.
يجدر بالذكر أن DeepSeek-V3 و DeepSeek-R1 عبارتان عن نماذج لغوية كبيرة، لكنهما يعملان بطرق مختلفة. DeepSeek-V3 هو نموذج توجيهي، مشابه لـ ChatGPT، حيث يستقبل مؤشرات ويولد نصوصًا مقابلة للرد عليها. أما DeepSeek-R1 فهو نموذج استدلالي، عندما يسأل المستخدم R1، فإنه سيقوم أولاً بعمل كمية كبيرة من عمليات الاستدلال، ثم يولد الإجابة النهائية. يظهر في الرمز الذي تم إنشاؤه من قبل R1 أولاً الكثير من عمليات السلاسل العقلية، حيث يقوم النموذج بشرح السؤال أولاً، ثم تقسيم السؤال، وجميع هذه العمليات الاستدلالية ستتم بشكل سريع في شكل رموز.
في رأي وين تينغ تسان، نائب الرئيس التنفيذي لشركة Yao Capital، فإن الطاقة الحسابية الهائلة لـ DeepSeek المذكورة أعلاه تشير إلى مرحلة التدريب، حيث يمكن لفريق الطاقة الحسابية في مرحلة التدريب التخطيط لها والتوقعات بها، ومن غير السهل وقوع نقص في الطاقة الحسابية في هذه المرحلة، ولكن طاقة الحسابية لعمليات الاستدلال غير مؤكدة إلى حد كبير، نظرًا لأنها تعتمد بشكل رئيسي على حجم واستخدام المستخدم، ومن الناحية النسبية، فإن لديها مرونة أكبر، "سيزداد استخدام طاقة الاستدلال وفقًا لنمط معين، ولكن مع تحول DeepSeek إلى منتج ظاهرة، فإن حجم واستخدام المستخدمين يزدادان بشكل كبير في وقت قصير، مما يؤدي إلى زيادة انفجارية في حاجة طاقة الاستدلال في مرحلة الاستدلال، ولذلك يحدث التأخير.
في الوقت الحالي، تعتبر كمية بطاقات DeepSeek الكبيرة التي يملكها المصمم النموذجي المبدع والمطور المستقل، هي السبب الرئيسي وراء تجميد البطاقات، وهو يعتقد أن DS ، كتطبيق محمول يحتل المرتبة الأولى في التنزيلات في 140 سوقًا عالميًا حاليًا، لا يمكنه تحمل أي بطاقة جديدة حاليًا بأي حال من الأحوال، لأن "تحويل البيانات إلى بطاقة جديدة يحتاج إلى وقت".
كانت تكلفة تشغيل شرائح مثل NVIDIA A100 و H100 لمدة ساعة معقولة من الناحية السوقية، ومن الواضح من تكلفة الاستنتاج لإخراج الرمز أن DeepSeek أرخص بنسبة تزيد عن 90٪ عن نماذج OpenAI المماثلة o1، وهذا ليس بتفاوت كبير مع حسابات الجميع، وبالتالي فإن بنية نموذج MOE نفسها ليست المشكلة الرئيسية، ولكن عدد وحدات GPU التي تمتلكها DeepSeek تحدد الحد الأقصى لعدد الرموز التي يمكن أن تنتجها وتوفرها في الدقيقة، حتى إذا كان بإمكانهم استخدام مزيد من وحدات GPU لخدمة المستخدمين بدلاً من البحث المسبق، فإن الحد الأقصى محدد.
وأشار بعض الخبراء في الصناعة إلى سيليكون جليديان أن جذب DeepSeek يعود في جوهره إلى عدم كفاءة السحابة الخاصة.
الهجمات الإلكترونية هي عامل آخر يسبب تعليق R1. في 30 يناير، علمت وسائل الإعلام من شركة أمن الشبكات Qihoo 360 أن كثافة الهجوم على خدمة DeepSeek عبر الإنترنت زادت فجأة، حيث ارتفعت تعليمات الهجوم بمقدار مئات المرات مقارنة بتاريخ 28 يناير. لاحظت مختبرات Xlab التابعة لشركة Qihoo 360 مشاركة ما لا يقل عن شبكتي زومبي في الهجوم.
لكن هناك حلاً ظاهرياً لانقطاع خدمة R1 ذاتي الخدمة، وهو توفير الخدمة من قبل طرف ثالث. هذا هو المنظر الأكثر حيوية الذي شهدناه خلال عطلة رأس السنة الصينية - حيث قامت الشركات بنشر الخدمات واستيعاب احتياجات الناس لـ DeepSeek.
في 31 يناير، أعلنت NVIDIA أن NVIDIA NIM يمكن استخدامه الآن مع DeepSeek-R1. في السابق، تأثرت NVIDIA بشكل كبير بـ DeepSeek، حيث تبخرت قيمتها السوقية خلال ليلة بما يقرب من 6000 مليار دولار. في نفس اليوم، يمكن لمستخدمي خدمة Amazon Web Services AWS تنصيب آخر نسخة من نموذج DeepSeek R1 الأساسي على منصة الذكاء الاصطناعي Amazon Bedrock و Amazon SageMaker AI الخاصة بهم. بعد ذلك، شهد استقبال آخر تطبيقات الذكاء الاصطناعي الجديدة مثل Perplexity و Cursor إلى DeepSeek. أما شركة مايكروسوفت، فقد تفوقت على أمازون ونفيديا، حيث جعلت DeepSeek-R1 متوفرًا أولاً على خدمات السحابة Azure و Github.
بدءا من اليوم الرابع من العام القمري الجديد في 1 فبراير ، انضمت أيضا Huawei Cloud و Alibaba Cloud و Volcano Engine من ByteDance و Tencent Cloud ، وهي توفر بشكل عام خدمات نشر نظام DeepSeek الكامل والنموذج على نطاق واسع. ثم هناك الذكاء الاصطناعي مصنعي الرقائق مثل Bichen Technology و Hanbo Semiconductor و Ascend و Muxi ، الذين يدعون أنهم قاموا بتكييف النسخة الأصلية أو الأصغر من DeepSeek. فيما يتعلق بشركات البرمجيات ، قامت Yonyou و Kingdee بدمج نموذج DeepSeek في بعض المنتجات لتعزيز قدرات منتجاتهما ، وأخيرا ، تم توصيل بعض منتجات الشركات المصنعة للمحطات الطرفية مثل Lenovo و Huawei و Honor بنموذج DeepSeek للمساعدين الشخصيين من جانب الجهاز وقمرة القيادة الذكية للسيارات.
حتى الآن، جذب DeepSeek شبكة واسعة تضم العديد من الأصدقاء بفضل قيمتها الخاصة، بما في ذلك موفرو السحابة المحليين والدوليين ومشغلي الشبكات والوسطاء ومنصات الحوسبة السوبر الوطنية. نظرًا لأن DeepSeek-R1 هو نموذج مفتوح بالكامل، فقد أصبح مزودو الخدمة جميعًا مستفيدين من نموذج DS. هذا من جهة زاد بشكل كبير من صيت DS، وفي نفس الوقت أدى إلى حدوث مشاكل كثيرة للتأخير، فقد بدأ مزودو الخدمة وDS نفسهم في الوقوع في مأزق بسبب الكم الهائل من المستخدمين الذين يتوافدون، حيث لم يجدوا بعد مفتاحًا رئيسيًا لحل مشكلة الاستخدام المستقر.
نظرًا لأن نموذجي DeepSeek V3 و R1 الأصليين يحتويان على ما يصل إلى 6710 مليار معلمة، فإنه مناسب لتشغيله في السحابة، حيث تتوفر لدى مزودي الخدمات السحابية قدرات حسابية واستدلال أكثر كفاءة، ويهدفون إلى تقديم خدمات نشر DeepSeek المتعلقة لتقليل عتبة استخدام الشركات، حيث يقدمون واجهة برمجة تطبيقات (API) لنموذج DeepSeek بعد نشره، ويعتبرون أن ذلك يوفر تجربة استخدام أفضل من تلك التي يقدمها DeepSeek بنفسه.
ومع ذلك، فإن تجربة تشغيل نموذج DeepSeek-R1 في الواقع لم تحصل على حل في خدمات الشركات المختلفة، حيث يعتقد الخارجون أن مقدمي الخدمات ليس لديهم نقص في البطاقات. ولكن في الواقع، فإن الردود غير المستقرة من قبل المطورين على R1 التي تم نشرها تتساوى تمامًا مع R1، وهذا يعود بشكل أكبر إلى أن كمية البطاقات المخصصة لتفسير R1 ليست كبيرة جدًا.
إن حرارة R1 مستمرة في مستوى مرتفع، ويحتاج مزودو الخدمات إلى مراعاة النماذج الأخرى التي يتم توصيلها، والبطاقات التي يمكن توفيرها لـ R1 محدودة جدًا، وحرارة R1 عالية مرة أخرى، فإذا قام أحد بتوصيل R1، وعرضه بأسعار نسبياً منخفضة، فسيتم غمره.
تحسين نشر النموذج هو مجال واسع يغطي العديد من الجوانب، بدءًا من الانتهاء من التدريب إلى نشر الأجهزة الفعلي، ويشمل عملًا متعدد الأوجه، ولكن بالنسبة لحدث تعليق DeepSeek، قد تكون الأسباب أكثر بساطة، مثل حجم النموذج الكبير وعدم الاستعداد الكافي قبل النشر.
قبل إطلاق نموذج كبير شائع، سيواجه تحديات متعددة تتعلق بالتقنية والهندسة والأعمال، مثل توافق بيانات التدريب مع بيانات الإنتاج، تأخير البيانات وتأثير الوقت الحقيقي على فعالية استدلال النموذج، كفاءة الاستدلال عبر الإنترنت واستخدام الموارد الزائد، قدرة النموذج على التعميم المحدودة، وجوانب الهندسة مثل استقرار الخدمة وتكامل النظام وواجهة برمجة التطبيقات.
قبل أن يتم إطلاق العديد من النماذج الكبيرة الشهيرة ، كانوا يولون اهتمامًا كبيرًا لتحسين الاستدلال ، وذلك بسبب مشكلات استهلاك الوقت والذاكرة ، حيث يشير الأول إلى تأخر الاستدلال الطويل ، مما يؤدي إلى تجربة مستخدم غير مرضية ، وحتى عدم قدرته على تلبية متطلبات التأخير ، مثل حدوث تأخير ، بينما يشير الأخير إلى كمية معلمات النموذج الكبيرة ، التي تستنزف ذاكرة العرض ، وحتى أنه قد لا يتسع لبطاقة GPU الفردية ، مما يؤدي أيضًا إلى حدوث تأخير.
أوضح ون تينجكان السبب ل Silicon Star ، وقال إن مزود الخدمة لتقديم خدمات R1 واجه تحديات ، وجوهرها هو أن هيكل نموذج DS خاص ، والنموذج كبير جدا + MOE (هيكل هجين خبير ، طريقة للحوسبة الفعالة) ، "يستغرق تحسين (مزودي الخدمة) وقتا ، لكن حرارة السوق لها نافذة زمنية ، لذلك يتم تحسينها أولا ثم تحسينها ، بدلا من تحسينها بالكامل ثم إطلاقها ". ”
لكي يعمل R1 بثبات، الجوهر الآن هو قدرة الاحتياط والتحسين على جانب الاستدلال. ما يجب على DeepSeek القيام به هو العثور على طريقة لخفض تكلفة الاستدلال وتقليل إخراج البطاقة وكمية الرمز المخرج في كل مرة.
في الوقت نفسه، يشير التأخير أيضًا إلى أن قدرة الحوسبة السحابية لـ DS نفسها ربما ليست ضخمة كما ذكرته SemiAnalysis، شركة صندوق السحر لديها حاجة لبطاقات، كما أن فريق تدريب DeepSeek يحتاج أيضًا إلى بطاقات، ولم يتم إصدار الكثير من البطاقات للمستخدمين. من النظرة الحالية، قد لا يكون لدى DeepSeek الحافز لإنفاق الأموال على استئجار الخدمات في المدى القريب، وبالتالي تقديم تجربة أفضل مجانًا للمستخدمين، ومن المحتمل أن ينتظروا حتى بعد توضيح الموجة الأولى من نماذج الأعمال C-End، ثم ينظرون في قضية استئجار الخدمات، وهذا يعني أيضًا أن التأخير سيستمر لفترة طويلة.
ربما يحتاجون إلى خطوتين: 1) تطبيق آلية الدفع لتقييد كمية استخدام نموذج المستخدمين المجاني؛ 2) التعاون مع مزودي خدمات السحابة لاستخدام موارد GPU الخاصة بالآخرين. الحل المؤقت الذي قدمه المطور تشن يون في لديه توافق كبير في الصناعة.
ولكن من الواضح حاليًا أن DeepSeek لا تبدو مستعجلة لحل مشكلتها "خادم مشغول". كشركة تسعى وراء AGI، يبدو أن DeepSeek لا ترغب في التركيز كثيرًا على تدفق المستخدمين الذين يتوافدون. ربما سيتعين على المستخدمين التعود على واجهة "الخادم مشغول" في المستقبل القريب.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
ما الذي يحدث وراء "الخوادم المزدحمة" في DeepSeek التي تدفع الجميع إلى الجنون؟
مصدر الصور: تم إنشاؤه بواسطة AI غير محدود
ردود DeepSeek المتكررة "الخادم مشغول، يرجى المحاولة مرة أخرى لاحقًا" تجعل المستخدمين في جميع أنحاء العالم يشعرون بالجنون.
صعدت DeepSeek ، التي لم تكن معروفة جيدا للجمهور ، إلى الشهرة مع إطلاق V3 ، وهو نموذج لغة تم قياسه مقابل GPT 4o ، في 26 ديسمبر 2024. في 20 يناير ، أصدرت DeepSeek R1 ، وهو نموذج لغوي يقيس OpenAI o1 ، ومن ثم تكون الشركة وتطبيقها خارج الدائرة تماما بسبب الجودة العالية للإجابات الناتجة عن وضع "التفكير العميق" والإشارة الإيجابية إلى أن ابتكارها يكشف أن التكلفة الأولية للتدريب النموذجي قد تنخفض. منذ ذلك الحين ، يعاني DeepSeek R1 من الازدحام ، مع شلل متقطع في وظيفة البحث عبر الإنترنت وتكرار عال من "الخادم مشغول" في وضع التفكير العميق ، مما أزعج عددا كبيرا من المستخدمين.
قبل عدة أيام ، بدأ DeepSeek في تجربة انقطاع في الخادم ، وفي ظهر يوم 27 يناير ، ظهر موقع DeepSeek الرسمي عدة مرات بأن "صفحة / API Deepseek غير متاحة" ، وفي نفس اليوم ، أصبح DeepSeek التطبيق الأكثر تنزيلاً في منطقة الولايات المتحدة خلال عطلة نهاية الأسبوع ، وتفوق في قائمة التنزيلات على ChatGPT.
في 5 فبراير، بعد 26 يومًا من إطلاق DeepSeek على الجانب المحمول، تجاوز عدد المستخدمين النشطين 40 مليونًا يوميًا، في حين بلغ عدد المستخدمين النشطين لـ ChatGPT على الجانب المحمول 54.95 مليون مستخدم يوميًا، مما يمثل 74.3% من DeepSeek. تقريبًا في الوقت الذي تجاوز فيه DeepSeek منحنى النمو الحاد، بدأت الشكاوى بشأن ازدحام الخوادم تتدفق من كل حدب وصوب، حيث بدأ المستخدمون في جميع أنحاء العالم في مواجهة إزعاج توقف الخدمة بمجرد طرح بضعة أسئلة، وبدأت العديد من بدائل الوصول تظهر، مثل موقع DeepSeek البديل، وبدأت الشركات الكبرى لخدمات السحابة وشركات تصنيع الشرائح وشركات البنية التحتية تطلق خدماتها، وكانت الدروس الشخصية متاحة في كل مكان. ومع ذلك، لم يتم تخفيف إحباط الناس: يزعم تقريبًا جميع الشركات الكبرى في العالم أنها تدعم نشر DeepSeek، ولكن مستخدمون من مختلف أنحاء العالم يستمرون في الشكاوى بشأن عدم استقرار الخدمة.
ما الذي حدث في الخلف؟
1، لمن اعتاد على ChatGPT، لا يمكنهم تحمل عدم فتح DeepSeek
كانت شكوى الناس من "انشغال خادم DeepSeek" تأتي من تطبيقات AI الرائدة السابقة التي كانت تعتمد بشكل رئيسي على ChatGPT ونادرًا ما تواجه تأخيرًا.
منذ إطلاق خدمة OpenAI، على الرغم من تعرض ChatGPT لعدة حوادث تعطل من المستوى P0 (أخطر مستوى حوادث)، إلا أنه بشكل عام، فإنه موثوق به نسبياً، وقد وجد التوازن بين الابتكار والاستقرار، وأصبح تدريجياً جزءاً أساسياً مشابهاً لخدمات السحابة التقليدية.
عدد انقطاعات خدمة ChatGPT ليس كبيرًا بشكل كبير
عملية استنتاج ChatGPT مستقرة نسبيًا ، تشمل خطوتي الترميز والفكري ، في مرحلة الترميز ، يتم تحويل النص المدخل إلى متجه يحتوي على معلومات الدلالة للنص المدخل ، وفي مرحلة الفكري ، يستخدم ChatGPT النص الذي تم إنشاؤه سابقًا كسياق ، ويستخدم نموذج Transformer لإنشاء الكلمة أو العبارة التالية ، حتى يتم إنشاء جملة كاملة تلبي الاحتياجات ، ينتمي النموذج الكبير نفسه إلى هندسة الفكري (Decoder) ، ومرحلة الفكري هي عملية إخراج كل رمز (أصغر وحدة يعالجها النموذج الكبير عند معالجة النص) ، عندما يتم سؤال ChatGPT مرة واحدة ، يتم بدء عملية الاستنتاج مرة واحدة.
على سبيل المثال، إذا سألت ChatGPT: “كيف حالك اليوم”، سيرمز ChatGPT هذه الجملة ويولّد تمثيل الانتباه لكل طبقة، وبناءً على تمثيل الانتباه لكل token سابق، يتنبأ بأن يكون الإخراج الأولي “أنا”، ثم بعد ذلك يبدأ في فك التشفير، ويرفق “أنا” إلى “كيف حالك اليوم؟”، ويحصل على “كيف حالك اليوم؟ أنا”، ويحصل على تمثيل انتباه جديد، ثم يتنبأ بالtoken التالي: “جيد”، ويستمر بالخطوات الأولى والثانية وهكذا حتى نهاية المطاف “كيف حالك اليوم؟ حالي جيد جدًا.”
أداة تخطيط الحاويات Kubernetes هي "قائد خلف الكواليس" لـ ChatGPT، حيث تقوم بجدولة وتوزيع موارد الخادم. عندما يتجاوز عبء المستخدمين الوافدة تمامًا قدرة مستوى التحمل لنظام Kubernetes، فإن ذلك يؤدي إلى تعطل كامل لنظام ChatGPT.
عدد حالات شل ChatGPT التي تعاني منها ليست كثيرة جدًا، ولكن وراء ذلك تكمن الموارد القوية التي يعتمد عليها كدعم، وراء الاستقرار الذي يحافظ عليه هو القوة الحسابية القوية، وهذا هو الجانب الذي يتجاهله الناس.
عمومًا، نظرًا لأن حجم بيانات المعالجة الاستدلالية عادة ما يكون صغيرًا، فإن متطلبات القوة الحسابية ليست مرتفعة مثل التدريب. يقدر بعض الخبراء في الصناعة أن أغلب استخدام الذاكرة الظاهرية خلال عملية الاستدلال للنماذج الكبيرة تكون لمعلمات النموذج، تقريبًا تمثل نسبة تفوق 80٪. الحقيقة هي أن في العديد من النماذج المضمنة في ChatGPT، فإن أحجام النماذج الافتراضية أصغر بكثير من 671B في DeepSeek-R1، بالإضافة إلى أن ChatGPT يمتلك قدرة حسابية أكبر بكثير من DeepSeek، مما يظهر بشكل طبيعي أداءً أكثر استقرارًا من DS-R1.
DeepSeek-V3 و R1 هما نموذجان بحجم 671B، حيث يكون عمل تشغيل النموذج عملية الاستدلال، ويجب أن يكون احتياطي الطاقة الحسابية أثناء الاستدلال متناسبًا مع عدد المستخدمين، على سبيل المثال، إذا كان عدد المستخدمين 100 مليون مستخدم، فيجب تجهيز بطاقة رسومات بحجم 100 مليون مستخدم، وليس فقط كبير، بل يعمل مستقلًا عن احتياطي الطاقة الحسابية أثناء التدريب ولا يتأثر به. من خلال المعلومات المتاحة، يبدو أن بطاقة الرسومات واحتياطي الطاقة الحسابية لـ DS غير كافية ولذلك يحدث التعليق بشكل متكرر.
هذا النوع من المقارنة لا يعتاد عليه مستخدمو ChatGPT الذين اعتادوا على تجربة سلسة، خاصة في ظل ازدياد اهتمامهم بـ R1.
2、كارت، كارت، لا زال كارت
وعلاوة على ذلك، فإن المواقف التي واجهتها OpenAI وDeepSeek مختلفة تماما.
الأولى مع دعم مايكروسوفت، كمنصة حصرية لـ OpenAI، يضم خدمة Microsoft Azure السحابية ChatGPT ومُولِّد الصور Dalle-E 2 وأداة البرمجة التلقائية GitHub Copilot، بعد ذلك أصبح هذا التَّجمُع نموذجًا كلاسيكيًا للسحابة + الذكاء الاصطناعي وأصبح انتشاره سريعًا ليصبح معيارًا في الصناعة؛ أما الثانية فعلى الرغم من أنها شركة ناشئة، فإنها في معظم الحالات تعتمد على مراكز البيانات الخاصة بها، مما يجعلها مماثلة لجوجل، ولا تعتمد على مزودي خدمات الحوسبة السحابية الخارجيين. وقد اكتشف سيليكون روبوت بعد البحث في المعلومات العامة أن DeepSeek لم تبدأ أي تعاون مع مزودي السحابة أو الشركات المصنعة للشرائح (على الرغم من أن مزودي السحابة أعلنوا خلال عطلة رأس السنة الصينية بأنهم سيسمحون لنموذج DeepSeek بالعمل على منصاتهم، إلا أنهم لم يبدؤوا أي تعاون ذي معنى حقيقي).
وبالإضافة إلى ذلك، تعرض DeepSeek لزيادة في عدد المستخدمين بشكل غير مسبوق، مما يعني أن وقت التحضير لاستجابتها أقل من ChatGPT.
تعتمد أداء DeepSeek على الأداء المتميز الذي تحققه من خلال تحسينات شاملة على مستوى الأجهزة والنظام. شركة الأم لـ DeepSeek ، Huansquare Quantitative ، قامت ببناء مجموعة حوسبة فائقة تدعى Firefly One بتكلفة 2 مليار دولار في عام 2019 ، وخزنت بالفعل آلاف بطاقات A100 في عام 22 ، ولتحقيق تدريب موازي أكثر كفاءة ، قامت DeepSeek بتطوير إطار تدريب HAI LLM الخاص بها. يُعتقد في الصناعة أن مجموعة Firefly قد تستخدم آلاف إلى عشرات آلاف بطاقات GPU عالية الأداء (مثل NVIDIA A100 / H100 أو رقائق صينية محلية الصنع) لتوفير قدرة حسابية موازية قوية. حاليًا ، تدعم مجموعة Firefly تدريب نماذج مثل DeepSeek-R1 و DeepSeek-MoE ، التي تظهر أداءً يقترب من مستوى GPT-4 في المهام الرياضية والبرمجية وغيرها من المهام المعقدة.
تمثل مجموعة Firefly استكشاف DeepSeek للبنى والأساليب الجديدة ، كما أنها تجعل العالم الخارجي يعتقد أنه من خلال هذه التقنيات المبتكرة ، يمكن ل DS تقليل تكلفة التدريب ، ويمكنه تدريب R1 على أداء أفضل نماذج الذكاء الاصطناعي بجزء بسيط من قوة الحوسبة للنماذج الغربية الأكثر تقدما. وفقا لحسابات SemiAnalysis ، تمتلك DeepSeek بالفعل احتياطيا ضخما من طاقة الحوسبة: تمتلك DeepSeek ما مجموعه 60,000 بطاقة NVIDIA GPU ، بما في ذلك 10,000 A100 و 10,000 H100 و 10,000 "إصدار خاص" H800 و 30,000 "إصدار خاص" H20.
يبدو أن كمية بطاقة R1 وفيرة بالمقارنة مع. ومع ذلك، كنموذج استدلالي، يستهدف R1 O3 من OpenAI، وهذه الفئة من النماذج الاستدلالية تحتاج إلى المزيد من القوة الحسابية للرد، ولكن DS توفر القوة الحسابية على جانب تكلفة التدريب، والتي تزداد بشكل حاد على جانب التكلفة الاستدلالية، ما إذا كانت أعلى أم أقل، ليس واضحًا حتى الآن.
يجدر بالذكر أن DeepSeek-V3 و DeepSeek-R1 عبارتان عن نماذج لغوية كبيرة، لكنهما يعملان بطرق مختلفة. DeepSeek-V3 هو نموذج توجيهي، مشابه لـ ChatGPT، حيث يستقبل مؤشرات ويولد نصوصًا مقابلة للرد عليها. أما DeepSeek-R1 فهو نموذج استدلالي، عندما يسأل المستخدم R1، فإنه سيقوم أولاً بعمل كمية كبيرة من عمليات الاستدلال، ثم يولد الإجابة النهائية. يظهر في الرمز الذي تم إنشاؤه من قبل R1 أولاً الكثير من عمليات السلاسل العقلية، حيث يقوم النموذج بشرح السؤال أولاً، ثم تقسيم السؤال، وجميع هذه العمليات الاستدلالية ستتم بشكل سريع في شكل رموز.
في رأي وين تينغ تسان، نائب الرئيس التنفيذي لشركة Yao Capital، فإن الطاقة الحسابية الهائلة لـ DeepSeek المذكورة أعلاه تشير إلى مرحلة التدريب، حيث يمكن لفريق الطاقة الحسابية في مرحلة التدريب التخطيط لها والتوقعات بها، ومن غير السهل وقوع نقص في الطاقة الحسابية في هذه المرحلة، ولكن طاقة الحسابية لعمليات الاستدلال غير مؤكدة إلى حد كبير، نظرًا لأنها تعتمد بشكل رئيسي على حجم واستخدام المستخدم، ومن الناحية النسبية، فإن لديها مرونة أكبر، "سيزداد استخدام طاقة الاستدلال وفقًا لنمط معين، ولكن مع تحول DeepSeek إلى منتج ظاهرة، فإن حجم واستخدام المستخدمين يزدادان بشكل كبير في وقت قصير، مما يؤدي إلى زيادة انفجارية في حاجة طاقة الاستدلال في مرحلة الاستدلال، ولذلك يحدث التأخير.
في الوقت الحالي، تعتبر كمية بطاقات DeepSeek الكبيرة التي يملكها المصمم النموذجي المبدع والمطور المستقل، هي السبب الرئيسي وراء تجميد البطاقات، وهو يعتقد أن DS ، كتطبيق محمول يحتل المرتبة الأولى في التنزيلات في 140 سوقًا عالميًا حاليًا، لا يمكنه تحمل أي بطاقة جديدة حاليًا بأي حال من الأحوال، لأن "تحويل البيانات إلى بطاقة جديدة يحتاج إلى وقت".
كانت تكلفة تشغيل شرائح مثل NVIDIA A100 و H100 لمدة ساعة معقولة من الناحية السوقية، ومن الواضح من تكلفة الاستنتاج لإخراج الرمز أن DeepSeek أرخص بنسبة تزيد عن 90٪ عن نماذج OpenAI المماثلة o1، وهذا ليس بتفاوت كبير مع حسابات الجميع، وبالتالي فإن بنية نموذج MOE نفسها ليست المشكلة الرئيسية، ولكن عدد وحدات GPU التي تمتلكها DeepSeek تحدد الحد الأقصى لعدد الرموز التي يمكن أن تنتجها وتوفرها في الدقيقة، حتى إذا كان بإمكانهم استخدام مزيد من وحدات GPU لخدمة المستخدمين بدلاً من البحث المسبق، فإن الحد الأقصى محدد.
وأشار بعض الخبراء في الصناعة إلى سيليكون جليديان أن جذب DeepSeek يعود في جوهره إلى عدم كفاءة السحابة الخاصة.
الهجمات الإلكترونية هي عامل آخر يسبب تعليق R1. في 30 يناير، علمت وسائل الإعلام من شركة أمن الشبكات Qihoo 360 أن كثافة الهجوم على خدمة DeepSeek عبر الإنترنت زادت فجأة، حيث ارتفعت تعليمات الهجوم بمقدار مئات المرات مقارنة بتاريخ 28 يناير. لاحظت مختبرات Xlab التابعة لشركة Qihoo 360 مشاركة ما لا يقل عن شبكتي زومبي في الهجوم.
لكن هناك حلاً ظاهرياً لانقطاع خدمة R1 ذاتي الخدمة، وهو توفير الخدمة من قبل طرف ثالث. هذا هو المنظر الأكثر حيوية الذي شهدناه خلال عطلة رأس السنة الصينية - حيث قامت الشركات بنشر الخدمات واستيعاب احتياجات الناس لـ DeepSeek.
في 31 يناير، أعلنت NVIDIA أن NVIDIA NIM يمكن استخدامه الآن مع DeepSeek-R1. في السابق، تأثرت NVIDIA بشكل كبير بـ DeepSeek، حيث تبخرت قيمتها السوقية خلال ليلة بما يقرب من 6000 مليار دولار. في نفس اليوم، يمكن لمستخدمي خدمة Amazon Web Services AWS تنصيب آخر نسخة من نموذج DeepSeek R1 الأساسي على منصة الذكاء الاصطناعي Amazon Bedrock و Amazon SageMaker AI الخاصة بهم. بعد ذلك، شهد استقبال آخر تطبيقات الذكاء الاصطناعي الجديدة مثل Perplexity و Cursor إلى DeepSeek. أما شركة مايكروسوفت، فقد تفوقت على أمازون ونفيديا، حيث جعلت DeepSeek-R1 متوفرًا أولاً على خدمات السحابة Azure و Github.
بدءا من اليوم الرابع من العام القمري الجديد في 1 فبراير ، انضمت أيضا Huawei Cloud و Alibaba Cloud و Volcano Engine من ByteDance و Tencent Cloud ، وهي توفر بشكل عام خدمات نشر نظام DeepSeek الكامل والنموذج على نطاق واسع. ثم هناك الذكاء الاصطناعي مصنعي الرقائق مثل Bichen Technology و Hanbo Semiconductor و Ascend و Muxi ، الذين يدعون أنهم قاموا بتكييف النسخة الأصلية أو الأصغر من DeepSeek. فيما يتعلق بشركات البرمجيات ، قامت Yonyou و Kingdee بدمج نموذج DeepSeek في بعض المنتجات لتعزيز قدرات منتجاتهما ، وأخيرا ، تم توصيل بعض منتجات الشركات المصنعة للمحطات الطرفية مثل Lenovo و Huawei و Honor بنموذج DeepSeek للمساعدين الشخصيين من جانب الجهاز وقمرة القيادة الذكية للسيارات.
حتى الآن، جذب DeepSeek شبكة واسعة تضم العديد من الأصدقاء بفضل قيمتها الخاصة، بما في ذلك موفرو السحابة المحليين والدوليين ومشغلي الشبكات والوسطاء ومنصات الحوسبة السوبر الوطنية. نظرًا لأن DeepSeek-R1 هو نموذج مفتوح بالكامل، فقد أصبح مزودو الخدمة جميعًا مستفيدين من نموذج DS. هذا من جهة زاد بشكل كبير من صيت DS، وفي نفس الوقت أدى إلى حدوث مشاكل كثيرة للتأخير، فقد بدأ مزودو الخدمة وDS نفسهم في الوقوع في مأزق بسبب الكم الهائل من المستخدمين الذين يتوافدون، حيث لم يجدوا بعد مفتاحًا رئيسيًا لحل مشكلة الاستخدام المستقر.
نظرًا لأن نموذجي DeepSeek V3 و R1 الأصليين يحتويان على ما يصل إلى 6710 مليار معلمة، فإنه مناسب لتشغيله في السحابة، حيث تتوفر لدى مزودي الخدمات السحابية قدرات حسابية واستدلال أكثر كفاءة، ويهدفون إلى تقديم خدمات نشر DeepSeek المتعلقة لتقليل عتبة استخدام الشركات، حيث يقدمون واجهة برمجة تطبيقات (API) لنموذج DeepSeek بعد نشره، ويعتبرون أن ذلك يوفر تجربة استخدام أفضل من تلك التي يقدمها DeepSeek بنفسه.
ومع ذلك، فإن تجربة تشغيل نموذج DeepSeek-R1 في الواقع لم تحصل على حل في خدمات الشركات المختلفة، حيث يعتقد الخارجون أن مقدمي الخدمات ليس لديهم نقص في البطاقات. ولكن في الواقع، فإن الردود غير المستقرة من قبل المطورين على R1 التي تم نشرها تتساوى تمامًا مع R1، وهذا يعود بشكل أكبر إلى أن كمية البطاقات المخصصة لتفسير R1 ليست كبيرة جدًا.
إن حرارة R1 مستمرة في مستوى مرتفع، ويحتاج مزودو الخدمات إلى مراعاة النماذج الأخرى التي يتم توصيلها، والبطاقات التي يمكن توفيرها لـ R1 محدودة جدًا، وحرارة R1 عالية مرة أخرى، فإذا قام أحد بتوصيل R1، وعرضه بأسعار نسبياً منخفضة، فسيتم غمره.
تحسين نشر النموذج هو مجال واسع يغطي العديد من الجوانب، بدءًا من الانتهاء من التدريب إلى نشر الأجهزة الفعلي، ويشمل عملًا متعدد الأوجه، ولكن بالنسبة لحدث تعليق DeepSeek، قد تكون الأسباب أكثر بساطة، مثل حجم النموذج الكبير وعدم الاستعداد الكافي قبل النشر.
قبل إطلاق نموذج كبير شائع، سيواجه تحديات متعددة تتعلق بالتقنية والهندسة والأعمال، مثل توافق بيانات التدريب مع بيانات الإنتاج، تأخير البيانات وتأثير الوقت الحقيقي على فعالية استدلال النموذج، كفاءة الاستدلال عبر الإنترنت واستخدام الموارد الزائد، قدرة النموذج على التعميم المحدودة، وجوانب الهندسة مثل استقرار الخدمة وتكامل النظام وواجهة برمجة التطبيقات.
قبل أن يتم إطلاق العديد من النماذج الكبيرة الشهيرة ، كانوا يولون اهتمامًا كبيرًا لتحسين الاستدلال ، وذلك بسبب مشكلات استهلاك الوقت والذاكرة ، حيث يشير الأول إلى تأخر الاستدلال الطويل ، مما يؤدي إلى تجربة مستخدم غير مرضية ، وحتى عدم قدرته على تلبية متطلبات التأخير ، مثل حدوث تأخير ، بينما يشير الأخير إلى كمية معلمات النموذج الكبيرة ، التي تستنزف ذاكرة العرض ، وحتى أنه قد لا يتسع لبطاقة GPU الفردية ، مما يؤدي أيضًا إلى حدوث تأخير.
أوضح ون تينجكان السبب ل Silicon Star ، وقال إن مزود الخدمة لتقديم خدمات R1 واجه تحديات ، وجوهرها هو أن هيكل نموذج DS خاص ، والنموذج كبير جدا + MOE (هيكل هجين خبير ، طريقة للحوسبة الفعالة) ، "يستغرق تحسين (مزودي الخدمة) وقتا ، لكن حرارة السوق لها نافذة زمنية ، لذلك يتم تحسينها أولا ثم تحسينها ، بدلا من تحسينها بالكامل ثم إطلاقها ". ”
لكي يعمل R1 بثبات، الجوهر الآن هو قدرة الاحتياط والتحسين على جانب الاستدلال. ما يجب على DeepSeek القيام به هو العثور على طريقة لخفض تكلفة الاستدلال وتقليل إخراج البطاقة وكمية الرمز المخرج في كل مرة.
في الوقت نفسه، يشير التأخير أيضًا إلى أن قدرة الحوسبة السحابية لـ DS نفسها ربما ليست ضخمة كما ذكرته SemiAnalysis، شركة صندوق السحر لديها حاجة لبطاقات، كما أن فريق تدريب DeepSeek يحتاج أيضًا إلى بطاقات، ولم يتم إصدار الكثير من البطاقات للمستخدمين. من النظرة الحالية، قد لا يكون لدى DeepSeek الحافز لإنفاق الأموال على استئجار الخدمات في المدى القريب، وبالتالي تقديم تجربة أفضل مجانًا للمستخدمين، ومن المحتمل أن ينتظروا حتى بعد توضيح الموجة الأولى من نماذج الأعمال C-End، ثم ينظرون في قضية استئجار الخدمات، وهذا يعني أيضًا أن التأخير سيستمر لفترة طويلة.
ربما يحتاجون إلى خطوتين: 1) تطبيق آلية الدفع لتقييد كمية استخدام نموذج المستخدمين المجاني؛ 2) التعاون مع مزودي خدمات السحابة لاستخدام موارد GPU الخاصة بالآخرين. الحل المؤقت الذي قدمه المطور تشن يون في لديه توافق كبير في الصناعة.
ولكن من الواضح حاليًا أن DeepSeek لا تبدو مستعجلة لحل مشكلتها "خادم مشغول". كشركة تسعى وراء AGI، يبدو أن DeepSeek لا ترغب في التركيز كثيرًا على تدفق المستخدمين الذين يتوافدون. ربما سيتعين على المستخدمين التعود على واجهة "الخادم مشغول" في المستقبل القريب.