العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
طريق ديب سيك بقيمة تريليون دولار: استخدام المصادر المفتوحة لتحفيز نظام بيئي من الأجهزة بقيمة تريليون دولار
ملاحظة المحرر: خلال العام الماضي، كانت المناقشات حول ديبسيك تركز بشكل كبير على أداء النموذج، وسياسة المصدر المفتوح، وحرب الأسعار. لكن إذا فهّمت ديبسيك فقط من خلال «هل تبيع اشتراكات أم لا»، «هل يوجد نماذج متعددة الوسائط»، «هل يمكن أن تكون وكيل برمجي للبرمجة»، فربما تستخف بما تريد تغييره حقًا.
تقدم هذه المقالة حكمًا أكثر جرأة: هدف ديبسيك ربما ليس تحقيق أرباح قصيرة الأمد من خلال تطبيقات الطبقة العليا، بل إعادة تشكيل هيكل تكلفة تدريب واستنتاج الذكاء الاصطناعي من خلال سلسلة من الابتكارات في البنية التحتية الأساسية، ودفع تشكيل نظام بيئي جديد للأجهزة بشكل غير مباشر. من MoE، MLA إلى DSA، CSA، mHC، Engram، ثم Dual Path و TileLang، تظل استراتيجية ديبسيك التقنية تدور حول سؤال مركزي: في ظل قيود HBM، العمليات المتقدمة، التعبئة والتغليف، وبيئة CUDA، كيف يمكن تشغيل نماذج أقوى باستخدام قدر أقل من الحوسبة عالية المستوى.
الأهم من ذلك، ليس ما إذا كانت ديبسيك ستجني مئات الملايين من الدولارات عبر API أو الاشتراكات، بل هل تربط قدرات النموذج، ونظام الذاكرة، والنظام البيئي للأجهزة المحلية معًا. ضغط KV Cache يقلل الاعتماد على HBM، وNAND وSSD يمكن أن يتحملا التخزين المؤقت الطويل الأمد، وLPDDR يمكن استخدامها لتحميل الأوزان بشكل تدفق، وEngram يهدف إلى تقليل حاجات CUDA. إذا استمرت هذه الابتكارات في الانتشار، فإن المستفيدين لن يكونوا ديبسيك فقط، بل يشملون أيضًا التخزين، وASIC، وGPU، ورقائق الشبكة، وسلسلة البنية التحتية للذكاء الاصطناعي بأكملها.
بالطبع، الحكم حول «اقتصاد بقيمة 10 تريليون دولار» و«تقييم بقيمة تريليون دولار» لا يخلو من التوقعات. لكنه يوفر مسارًا هامًا لفهم ديبسيك: المصدر المفتوح لا يعني بالضرورة التخلي عن التجارية، والأسعار المنخفضة ليست دائمًا مجرد دعم للسوق. بالنسبة لديبسيك، قد يكون العمل الحقيقي ليس في تطبيقات الطبقة العليا، بل في جعل المزيد من الأجهزة متاحة، وتسهيل إمدادات الذكاء الاصطناعي منخفضة التكلفة. بمعنى آخر، ما تبيعه ليس النموذج نفسه، بل إمكانية البنية التحتية للذكاء الاصطناعي للجيل القادم.
وفيما يلي النص الأصلي:
هل فكرت يومًا، كيف ستكسب ديبسيك المال، وربما الكثير من المال؟
لم تطلق مثل GLM، MoonShot، وMiniMax خطط اشتراك برمجية تنافسية؛ ولا يوجد نماذج متعددة الوسائط، أو نماذج صوتية وفيديو. حتى الآن، لم تمتلك ديبسيك إطار عمل خارجي لاستدعاء النماذج، أو أدوات لربط الأدوات، أو تنفيذ المهام — على الرغم من أنهم بدأوا مؤخرًا في توظيف مناصب ذات صلة، للتحضير لبناء هذا النظام.
وفي الوقت نفسه، يبدو أن ديبسيك لا تزال متمسكة بالمصدر المفتوح، وتشارك «أسرارها» بشكل مفتوح. أليس هذا جنونًا؟ أليس تبذيرًا للمال؟ هل المستثمرون الذين يخططون لاستثمار 10 مليارات دولار فيها يرمون أموالهم في المجاري؟
أعتقد أن الجواب هو العكس تمامًا.
سأقدم لاحقًا، استنادًا إلى ما أنجزته ديبسيك حتى الآن، بعض الملاحظات، وأحلل استراتيجية تتبعها على ما يبدو. هدف الرئيس التنفيذي لديبسيك، ليانغ وينفينغ، ربما يتجاوز المنافسة على النماذج الحالية. هو يهدف إلى جائزة أكبر: فرصة ديبسيك لضرب تقييم بقيمة تريليون دولار، ودفع صناعة جديدة بقيمة تصل إلى 10 تريليون دولار لتشكيلها.
إعادة النظر في «رحلة الأبطال» لديبسيك
ديبسيك تسير ضد التيار. لم تختار إطلاق نماذج أكثر قوة بشكل تدريجي، ثم تسريع تسويقها كتطبيقات قابلة للتحقيق مباشرة، مثل خطط الاشتراك البرمجي. في 27 يناير 2025، نشرت تغريدة واسعة الانتشار تشرح «رحلة الأبطال» التي أراها لديبسيك. والآن، أصبحت القصة أكثر إثارة.
بينما يحاول الآخرون بناء نماذج كثيفة، اختارت ديبسيك نموذج خبراء مختلط (MoE) أصعب في التدريب.
اعتمدوا «مبدأ أولي» وابتكروا خوارزمية جديدة تسمى GRPO، لتحل محل خوارزمية PPO المعروفة، والتي كانت أكثر تكلفة في التنفيذ.
اكتشفوا أن التعلم المعزز بناءً على مكافآت قابلة للتحقق (RLVR) هو المفتاح لتحسين قدرات الاستنتاج للنموذج.
كما اقترحوا استراتيجية فك التشفير «متعددة الرموز» (Multi Token Prediction)، التي جعلت إشارة التدريب أكثر كثافة.
طوّروا خط أنابيب «فقاعة صفر» (ZERO bubble) لزيادة كفاءة استخدام موارد GPU المحدودة.
أطلقوا موازن عبء الخبراء، مما يسهل نشر نماذج MoE. خاصة عبر استراتيجية «توازي الخبراء الواسع» (Wide Expert Parallel)، التي تسمح للنموذج بالخدمة باستخدام دفعات أكبر، مما يقلل بشكل كبير من تكلفة الاستنتاج.
ابتكروا آليات MLA، DSA، CSA، HCA، لتقليل الحاجة إلى KV Cache، وجعل الحسابات التي تزداد مع طول السياق تظل ثابتة قدر الإمكان.
كما ابتكروا Engram، الذي يبادل الذاكرة مقابل كفاءة الحساب.
وأيضًا mHC، الذي يتيح استقرار التدريب مع زيادة حجم النموذج. وهناك أمثلة كثيرة على ذلك.
في بنية «رحلة الأبطال» الأكثر شيوعًا، لا يقرر البطل منذ البداية إلى أين يتجه. بل يكتشف مهمته الحقيقية تدريجيًا خلال رحلته، ويتغلب على العقبات. يواجه المشككين، لكنه يتجاهلهم. يواجه أعداءً، ويعاني من عيوب، لكنه يتجاوزها ليحقق مهمته. يجد طرقًا للتحالف، ويستخدم الموارد المحدودة بحكمة. هذا هو السبب في أن الجمهور يسانده، ويجعله يحظى باحترام عالمي ومعارضة.
كما سأوضح لاحقًا، ديبسيك سارت على هذا الطريق منذ زمن، واكتشفت مصيرها النهائي: هدفها ليس بيع اشتراكات برمجية، بل دفع نظام بيئي للأجهزة الصينية بقيمة تصل إلى 10 تريليون دولار، وتحقيق تقييم بقيمة تريليون دولار لنفسها. وفي هذه العملية، ستخلق فرصًا للعديد من اللاعبين الجدد في النظام البيئي للأجهزة الغربية.
لنبدأ ببعض حسابات KV Cache المثيرة
راجع التغريدة الأخيرة من @SemiAnalysis_، فهي حديثة جدًا وملائمة:
ديبسيك تجاوزت الجميع في حل هذه المشكلة!
لنقم ببعض الحسابات الممتعة على KV Cache. لا تقلق، حتى لو لم تكن تحب الرياضيات، فسنستخدم حاسبة KV Cache الجديدة لنرى كم من KV Cache يمكن أن توفرها ديبسيك V4 Pro، ونقارنها بأحدث نماذج GLM وQwen.
سأفترض طول سياق حوالي مليون، مع دقة KV تبلغ 8 بت، ودقة الفهرس 16 بت. يمكنك أيضًا تجربة الحاسبة بنفسك: https://kvcache.ai/tools/kv-cache-calculator/
عند طول سياق مليون:
· ديبسيك V4 يحتاج فقط إلى 5.48 جيجابايت من HBM؛
· GLM-5 يحتاج إلى 60 جيجابايت من HBM؛
· Qwen3-235B-A22B يحتاج حتى 89 جيجابايت من HBM.
ملاحظة مهمة:
· ديبسيك نموذج يحتوي على 1.6 تريليون معلمة؛
· GLM-5 يقدر بـ 700 مليار معلمة، ويستخدم بالفعل MLA و DSA من ديبسيك، لكنه لم يستخدم أحدث آليات الضغط على الانتباه؛
· Qwen3-235B-A22B يقدر بـ 235 مليار معلمة، ويستخدم آلية GQA للانتباه.
ديبسيك ساهمت بشكل أساسي في تقليل ضغط الذاكرة، وإذا تم تبني هذه الابتكارات على نطاق واسع، فستخفض بشكل كبير تكلفة تشغيل الوكيل طويل المدى، وتفتح آفاقًا جديدة للتطبيقات.
المنهجية وراء «الجنون»
حجم KV Cache الصغير، مع عدم التضحية بجودة النموذج، هو السبب في قدرة ديبسيك على تقديم تخزين مؤقت طويل الأمد بأسعار منخفضة جدًا — تكلفتها أقل من 3% من سعر ذاكرة Sonnet 4.6، ويمكنها الاحتفاظ بالتخزين لعدة ساعات.
بالنسبة للمهام ذات الدورة الطويلة، فإن KV Cache الأصغر يعني أنه يمكن تفريغه بشكل أكثر اقتصادًا إلى SSD، وإعادة تحميله عند الحاجة. هذا يقلل الاعتماد على HBM. من وجهة نظر صناعة الأجهزة الصينية، HBM ليس فقط نادرًا، بل هو أحد أصعب أنواع الذاكرة تصنيعًا.
بالإضافة إلى ذلك، طوّرت ديبسيك تقنية لتحميل KV Cache بسرعة أكبر من SSD، وهو ما تم شرحه في ورقة Dual Path.
ضغط KV Cache في ديبسيك V4 كبير جدًا، لدرجة أن هذه الخطوة قد لا تكون ضرورية أصلاً.
من هو المستفيد المباشر من ضغط KV Cache؟
من يورد SSD بكميات كبيرة؟ لا تنس أن YMTC (Longsys) تتجه لتصبح عملاقًا في مجال NAND ثلاثي الأبعاد. NAND يمكن أن يساعد ديبسيك على تجنب الحساب المكرر لـ KV، وفي المقابل، تخلق ديبسيك سوقًا ضخمًا لـ NAND وSSD — مما يعود بالنفع على Longsys وغيرها من الشركات.
لكن الأمر لا يقتصر على NAND وSSD فقط.
ذاكرة LPDDR لديها أيضًا إمكانيات هائلة. يمكن أن تُستخدم لتخزين أوزان النموذج، وتدفقها إلى HBM عند الحاجة، مما يخفف الضغط على HBM. فريق SGLang نشر مدونة جيدة تشرح ذلك. الصورة أدناه توضح كيف يعمل هذا النظام.
على الرغم من أن ديبسيك لم تصمم خصيصًا لهذا الحل، إلا أن بنية MoE، ووجود العديد من النماذج الخبرائية، ووزن 4 بت، كلها تجعل تطبيق هذا الحل أسهل.
إذا تم دمج هذا الابتكار مع KV Cache مضغوط جدًا وبدون خسائر، فسيقلل بشكل كبير من الحاجة إلى HBM.
من يصنع LPDDR في الصين؟ الجواب هو CXMT، أي Longsys. هم يتأخرون حوالي نصف جيل في سرعة LPDDR، وجيل واحد في الكثافة، والفجوة ليست كبيرة.
بالإضافة إلى وفرة NAND، فإن النظام البيئي للأجهزة الصينية في المستقبل القريب سيكون لديه إمدادات كافية من LPDDR. هل يمكن أن يخفف ذلك من ضغط الحوسبة؟ الجواب نعم. استمر في القراءة.
استخدام الذاكرة الذكي يمكن أن يخفف أيضًا من ضغط GPU / ASIC
استخدام NAND لتخزين KV Cache مفهوم جدًا: يمكن أن يسمح بتخزين KV Cache لفترات أطول، ويقلل الضغط على HBM، ويجنب الحساب المكرر لـ KV، مما يخفف من عبء حسابات GPU وASIC.
هل يمكن أن تلعب LPDDR نفس الدور؟ بالإضافة إلى كونها مكانًا يمكن تدفق الأوزان إليه عند الحاجة، هل يمكن أن تقلل من عبء الحسابات بشكل أكبر؟
الجواب هو نعم.
يمكن استخدام LPDDR لتخزين محتوى يُطلق عليه Engram. في ورقة ديبسيك حول Engram، أشاروا إلى أن MoE يمكن أن يوسع سعة النموذج عبر الحساب الشرطي، لكن Transformer يفتقر إلى آلية «بحث المعرفة» الأصلية. لذلك، غالبًا ما يضطر Transformer لمحاكاة عملية البحث بشكل غير فعال عبر الحساب.
لحل هذه المشكلة، اقترحت ديبسيك وحدة Engram. قامت بتحديث embedding من نوع N-gram الكلاسيكي، وجعلته آلية بحث تعتمد على التجزئة (hashing) ذات زمن استجابة O(1)، وخلقت مسارًا نادرًا للتخفيف، أسموه «الذاكرة الشرطية» (conditional memory).
هذه الطريقة توفر الحساب، لكنها تتطلب ذاكرة لتحمل جدول embedding، والذي قد يكون ضخمًا جدًا.
في جوهرها، هي حل «مقايضة الذاكرة مقابل الحساب». لكن الرؤية الأساسية تكمن في أن تكلفة قراءة البيانات من كل bit من البيانات، أن «الذاكرة» أرخص بكثير — عملية بحث LPDDR تكلف أقل بكثير من تمرير البيانات عبر عدة طبقات من Transformer لإجراء استنتاج أمامي.
وهذا هو السبب في أن هذا المقايضة مجدية جدًا في السيناريوهات واسعة النطاق، حيث توفر الكثير من الحساب مقابل قليل من الذاكرة.
هذه هي الطريقة التي تتبعها ديبسيك، من خلال التضحية ببعض الذاكرة مقابل توفير الحساب.
الاختيارات التي يجب أن نأخذها بعين الاعتبار
نظرًا لغياب كثافة ترانزستور مماثلة، وعدم وجود تقنية EUV، فإن بطاقات GPU وASIC الصينية ستظل متأخرة على الأرجح عن نظيراتها الغربية من حيث FLOPs. كما أن التعبئة والتغليف المتقدمة لا تزال بعيدة، لذلك فإن هذه الخيارات مهمة جدًا، خاصة مع قدرة الصين على إنتاج NAND وLPDDR بكميات كبيرة.
مراجعة الاستراتيجية طويلة المدى لديبسيك
من خلال هذه الابتكارات، يبدو أن هدف ديبسيك ليس تحقيق أرباح بمليارات الدولارات الآن. العديد من خياراتها السابقة تؤكد ذلك: لا يوجد نماذج متعددة الوسائط، ولا نماذج صوتية، والفيديو غير موجود حتى الآن.
ما تفعله حقًا هو لعبة طويلة الأمد، قد تصل إلى 10 تريليون دولار: دفع تشكيل نظام بيئي للأجهزة البديلة للذكاء الاصطناعي.
هذا ليس فقط لتمكين شركات الذاكرة الصينية من أن تصبح لاعبين رئيسيين في السوق المحلية والعالمية، بل أيضًا لتقليل استهلاك الموارد بشكل جذري، وجعل تدريب وخدمات نماذج الذكاء الاصطناعي أكثر كفاءة من حيث التكلفة. وبهذا، يمكن أن يصبح العديد من الشركات المصنعة لـ GPU وASIC ورقائق الشبكة خيارات قابلة للتنفيذ.
وفي الوقت نفسه، ستستفيد هذه الابتكارات أيضًا النظام المفتوح في الغرب، والجهات المصنعة للأجهزة الجديدة.
كل الدلائل تشير إلى ذلك. لنراجع بالتفصيل الابتكارات التي طرحتها ديبسيك حتى الآن:
في V2، أدخلت ديبسيك MoE و MLA. أدى MoE إلى تقليل الحساب المطلوب لتدريب نماذج ذكية بنسبة تتراوح بين 40% و50%؛ وMLA قلل KV Cache بنسبة 90%.
هذه الأفكار ظهرت لأول مرة في ورقة ديبسيك V2 التي نشرت في مايو 2024. وأصبحت أساسًا لتدريب ديبسيك V3 لاحقًا. حينها، استخدمت ديبسيك فقط 2048 بطاقة GPU من نوع H800، ذات أداء مخفف، لتدريب نظام يقارب مستوى النماذج المغلقة.
الوظيفة الأساسية لـ DSA، هي ضمان أن الحسابات لا تزداد مع زيادة طول السياق. انظر إلى الرسم أدناه: مع زيادة طول السياق، يظل زمن المعالجة في ديبسيك V3.2 ثابتًا تقريبًا.
mHC هو ابتكار على مستوى الهيكلية الكلية، يعيد تصميم تدفق المعلومات بين طبقات Transformer.
منذ ResNet، كانت النماذج تستخدم عادةً روابط متبقية قياسية، وهي x + F(x). أما mHC، فهي توسع هذا المفهوم إلى قنوات معلومات متوازية، وتسمح للموديل بدمجها بشكل قابل للتعلم. الميزة الأساسية، أنها تقيد مصفوفة الدمج بمصفوفة عشوائية ثنائية، وتحد من قيمتها عبر إسقاط Sinkhorn-Knopp على مضلع بيركهوف. هذا يضمن، رياضيًا، أن الإشارة تظل مستقرة مهما كان عمق النموذج.
هذا يحل مشكلة عدم الاستقرار الكارثي التي كانت تواجهها Hyper-Connections غير المقيدة، والتي كانت تتسبب في انفجارات هائلة في الإشارة عند 270 مليار معلمة، وتؤدي إلى انهيار التدريب.
تكلفة حساب mHC منخفضة جدًا، فهي تزيد فقط حوالي 6.7% من زمن التدريب الفعلي، لأنها لا تغير FLOPs في طبقات الانتباه أو FFN، بل تغير فقط طريقة توجيه مخرجاتها بين الطبقات.
لكن، الأداء الذي تحققه واضح جدًا: عند 270 مليار معلمة، يرفع mHC دقة استنتاج BIG-Bench Hard بمقدار 7.2 نقاط، وDROP بمقدار 3.2، وGSM8K بمقدار 2.8، وMMLU بمقدار 1.4، وكل ذلك مع نفس حجم النموذج وميزانية حسابية تقريبًا.
جوهرًا، يوفر mHC شبكة أكثر غنىً وتعبيرية، ويعزز الذكاء لكل وحدة من المعلمات، دون زيادة FLOPs بشكل كبير.
هدف CSA و HSA، هو تقليل حاجة KV Token و KV Cache بنسبة تصل إلى 90%، وتقليل FLOPs بشكل كبير، مما يخفف ضغط HBM وGPU/ASIC في آنٍ واحد.
كما يظهر في الرسم التفصيلي أدناه، عند نفس ميزانية المعلمات، أدت Engram إلى تحسينات واضحة في الأداء.
كما يظهر في الرسم التفصيلي أدناه، عند نفس ميزانية المعلمات، أدت Engram إلى تحسينات واضحة في الأداء.
السعي وراء TileLang، يتجه أيضًا في نفس الاتجاه: ديبسيك لا تقتصر على حل مشكلة الحوسبة الخاصة بها، بل تدفع النظام البيئي للأجهزة الصينية ليكون قادرًا على المنافسة مع الغرب.
بمساعدة TileLang، يمكن للمطورين كتابة نواة واحدة فقط، وهي الكود الأساسي للحساب، ثم تشغيله على منصات أجهزة متعددة، بشرط أن يكون هناك دعم من TileLang على تلك المنصات.
أتوقع أن تنضم إليها مختبرات ذكاء اصطناعي صينية أخرى تدريجيًا، مما يساعد الشركات المصنعة للأجهزة الصينية على مواجهة «حاجز CUDA» بشكل غير مباشر. كما أنه يطلق العنان لقدرات الأجهزة الغربية، مثل AMD.
ويجب أن نذكر أن العديد من منصات الذكاء الاصطناعي الصينية تدعم الآن التوافق مع CUDA، أو توفر طبقات ترجمة له، مثل مورثريد، موشي، بييرن، وتينشو، التي تعتمد على طبقات ترجمة لتحقيق توافق عالٍ مع CUDA. لذلك، من الناحية النظرية، قد لا تحتاج إلى TileLang.
التعلم المعزز المكثف و RSI
مع زيادة مصادر الحوسبة لديبسيك، وتوفر أجهزة أكثر، وانخفاض الطلب على الموارد، يمكنها أن تتقدم في مشاريع تدريب أكثر طموحًا، خاصة بعد التدريب.
التعلم المعزز يتطلب توليد مسارات كثيرة، أي تريليونات من الرموز. هذه العملية تصبح مكلفة جدًا بسرعة. والأكثر من ذلك، إذا أردت تدريب نموذج بطول سياق مليون، فستحتاج إلى توليد مسارات بنفس الطول. فقط عبر تدريب على مسارات طويلة جدًا، يمكن دعم مهام ذات دورة طويلة حقًا.
بالإضافة إلى ذلك، مع توافر خيارات أجهزة أكثر، ستتمكن ديبسيك من استدعاء موارد أكثر، مما يدفع نحو البحث الآلي، أي RSI. RSI تعني أن الذكاء الاصطناعي يصمم ويجري التجارب بنفسه. هذه الطريقة تتطلب الكثير من التجارب والخطأ، وتكلفتها ترتفع بسرعة. لكن، قبل الوصول إلى الذكاء العام، ثم الذكاء الفائق، يجب أن تمتلك ديبسيك قدرات RSI.
ما تفعله ديبسيك اليوم، ستتبعه الصناعة غدًا
الابتكارات التي طرحتها ديبسيك في مجالات نموذج الخبراء المختلط، MLA، DSA، وغيرها، بدأت تتبناها مختبرات ذكاء اصطناعي عالمية وصينية.
على سبيل المثال، مطور نماذج GLM، شركة ZAI، استخدم MLA و DSA. Kimi، أو MoonShot، اعتمدت على MLA، وأكدت أن هيكلها مبني على بنية ديبسيك. وديبسيك أيضًا تستخدم مُحسّن Muon، الذي كان أول من استخدمه Kimi في تدريب واسع النطاق.
وللتوضيح:
MoE أُطلق لأول مرة بواسطة Google في 2017، وكان من أهم مؤلفيه Noam Shazeer. مساهمة ديبسيك، هي تطبيق MoE على نطاق واسع، وابتكار تقنيات خاصة بها.
أما Muon، فهو مُحسّن MomentUm Orthogonalized by Newton-Schulz، الذي اقترحه الباحث Keller Jordan في نهاية 2024. وكان فريق Kimi (MoonShot) هو الأول الذي استخدمه في تدريب واسع النطاق.
ماذا عن مسألة الربح؟
لننظر إلى مثال مثير للاهتمام: شركة OpenAI.
حصلت OpenAI على حقوق شراء أسهم في AMD وCerebras بأسعار منخفضة، مرتبطة بمعالم استهلاك الحوسبة. بالنسبة لـ AMD وCerebras، كانت صفقة مربحة جدًا، لأنها تضمن أن استخدام OpenAI لأجهزتهم يزيد من احتمالية نجاحهم على المدى الطويل.
وفي إعلان AMD، جاء نص:
«كجزء من الاتفاق، وللتنسيق بشكل أكبر بين الطرفين، أصدرت AMD لـ OpenAI حقوق شراء حتى 160 مليون سهم من أسهم AMD العادية، وتُمنح تدريجيًا بناءً على تحقيق معالم محددة. ستُمنح الدفعة الأولى عند اكتمال نشر 1 جيجاوات، وتُمنح الدفعات التالية مع توسع الشراء إلى 6 جيجاوات. شروط المنح تتعلق أيضًا بتحقيق أهداف سعر سهم معين، وتحقيق OpenAI لمعالم تقنية وتجارية تتيح نشر AMD على نطاق واسع.»
أتوقع أن ديبسيك ستوقع اتفاقيات مماثلة مع العديد من شركات الذاكرة، وASIC، وCPU، وتقنيات الشبكة الصينية، والتعاون معها بشكل عميق، لتمكين أجهزتها من التعامل مع أعباء العمل الرائدة في الذكاء الاصطناعي.
وبالنظر إلى أن القيمة السوقية الإجمالية لأسهم شركات الذكاء الاصطناعي الغربية، بما فيها الحلفاء في شرق آسيا، تتجاوز 10 تريليون دولار، فإن «الحصول على عوائد من خلال الشراكة» بهذه الطريقة، يمنح ديبسيك فرصة لبناء صناعة ضخمة مماثلة في الصين، والحصول على حصتها، وتحقيق تقييم بقيمة تريليون دولار لنفسها.
وهذا لن يربحها فقط أموالًا تفوق الاشتراكات التقليدية، بل سيساعدها أيضًا على تحقيق هدفها المتمثل في «جعل الذكاء الاصطناعي العام يعود بالنفع على الجميع». ليانغ وينفينغ هو معجب كبير بجيمس سيمونز، وذكي جدًا في عالم رأس المال، ولن يفوته هذا الفرص.
إذا نظرت إلى كل ما أنجزته ديبسيك حتى الآن، فإن التفسير الوحيد المنطقي هو هذا.
[رابط المصدر]
انقر لمعرفة وظائف BlockBeats
انضم إلى المجتمع الرسمي لبلوك بيتس:
قناة تيلجرام: https://t.me/theblockbeats
مجموعة تيلجرام: https://t.me/BlockBeats_App
حساب تويتر الرسمي: https://twitter.com/BlockBeatsAsia