فهم Cerebras: القوة الحاسوبية تثير تفكير الذكاء الاصطناعي، والذاكرة تمكّن الوكيل من أداء المهام

المؤلف: بن تومسون

القدرة الحاسوبية تجعل الذكاء الاصطناعي يتعلم التفكير، والذاكرة تجعل الوكيل يتعلم إنجاز المهام.

في أسبوع إدراج Cerebras، شرح بن تومسون أحدث مقال بشكل شامل: تطور الذكاء الاصطناعي من “الدردشة” إلى “تنفيذ المهام بشكل مستقل”، وتغير عنق الزجاجة في بنية الرقائق.

أنت تنتظر الدردشة مع دوجباو بسرعة؛ عندما يقوم Kimi Claw بتنفيذ مهمة لمدة 5 ساعات نيابة عنك، فهو لا يهتم بسرعة 3 ثوانٍ أو ببطء 30 ثانية — ما يهمه هو هل يمكنه تذكر السياق، هل يمكنه الاستمرار في العمل. مع كل خطوة يُنفذها، يتضخم ذاكرة العمل (ذاكرة التخزين المؤقت KV). GPU مصممة لـ"انتظار الإنسان أمام الشاشة": عند التحميل المسبق تكون الذاكرة فارغة، وعند فك التشفير تكون القدرة الحاسوبية فارغة — نصف الوقت في الانتظار.

ما يعيق التقدم حقًا ليس سرعة الحساب، بل كم يمكنه الاحتفاظ بالبيانات، ومدى سرعة القراءة. والأهم من ذلك، أن الوكيل طويل الأمد يجعل ذاكرة KV من مؤقتة إلى ذاكرة عمل دائمة. من يستطيع جعل هذه الذاكرة تدوم أطول، وتُعاد استخدامها أكثر، وتكلفتها أقل، هو من يملك مفتاح اقتصاد الوكيل.

هذا أهم بكثير من نتائج الأداء.

أما عن توقيت الإدراج، فإن إنشاء شركة رقاقة في مايو 2026 هو تقريبًا الخيار المثالي. ذكرت رويترز في نهاية الأسبوع:

أخبر شخصان مطلعان يوم الأحد رويترز أن الطلب المستمر على أسهم شركة الرقائق الذكية للذكاء الاصطناعي يدفع Cerebras Systems على الأرجح لزيادة حجم الطرح وتحديد السعر يوم الاثنين. وقال مصدران إن الشركة تدرس رفع نطاق السعر من 115-125 دولارًا للسهم إلى 150-160 دولارًا، وزيادة عدد الأسهم المصدرة من 28 مليون إلى 30 مليون، مع أن المعلومات لم تُعلن بعد، وطلب كلاهما عدم الكشف عن هويتهما.

الارتفاع المستمر في أسهم أشباه الموصلات مدفوع بشكل أساسي بالذكاء الاصطناعي — خاصة مع إدراك السوق تدريجيًا أن: الكيانات الذكية (Agents) ستستهلك قدرًا هائلًا من القدرة الحاسوبية (Compute). لكن ما تشير إليه Cerebras أوسع نطاقًا: حتى الآن، سرد القدرة الحاسوبية للذكاء الاصطناعي يركز تقريبًا على GPU، وعلى Nvidia؛ بينما المستقبل سيكون أكثر تغايرًا (Heterogeneous).

عصر GPU

قصة كيف أصبح GPU مركز الذكاء الاصطناعي أصبحت من القصص القديمة، باختصار:

  • كما أن رسم البكسلات على الشاشة هو عملية متوازية (Parallel process) — كلما زاد عدد وحدات المعالجة، زادت سرعة الرسوميات — فإن حسابات الذكاء الاصطناعي كذلك: عدد وحدات المعالجة يحدد سرعة الحساب مباشرة.

  • Nvidia استغلت هذا الاتجاه بشكل جيد: حولت المعالج الرسومي إلى وحدة قابلة للبرمجة (Programmable)، ومع بيئة CUDA الكاملة، جعلت من قدرات البرمجة متاحة لجميع المطورين.

  • الفرق الجوهري بين الرسوميات والذكاء الاصطناعي هو حجم المشكلة — النماذج أكبر بكثير من textures في ألعاب الفيديو. أدى ذلك إلى تطورين متصلين: زيادة سعة الذاكرة عالية النطاق الترددي (HBM) على كل GPU؛ وتحقيق تقدم كبير في ربط الرقائق (Chip-to-chip networking) بحيث يمكن لعدة رقائق أن تعمل كوحدة قابلة للعناونة (Addressable system). Nvidia تتصدر في كلا المسارين.

  • الاستخدام الرئيسي لـGPU دائمًا هو التدريب، والذي يتطلب تلبية هذين الشرطين: كل خطوة تدريبية عالية التوازي، لكن بين الخطوات تكون متسلسة — قبل الانتقال للخطوة التالية، يجب على كل GPU أن يزامن نتائجه مع باقي GPUs. لهذا، نموذج يتكون من تريليون معلمة (Trillion-parameter) يحتاج إلى عشرات الآلاف من GPUs، ويجب أن تتواصل هذه GPUs كأنها جهاز واحد. Nvidia تسيطر على هذين التحديين: أولًا، حجز إمدادات HBM قبل الجميع، وثانيًا استثمار طويل الأمد في تقنيات الشبكة.

بالطبع، التدريب ليس العمل الوحيد للذكاء الاصطناعي، هناك أيضًا الاستدلال (Inference). يتضمن الاستدلال ثلاثة أجزاء رئيسية:

1، التحميل المسبق (Prefill): ترميز كل المحتوى الذي يحتاج النموذج الكبير (LLM) لفهمه في حالة قابلة للفهم؛ وهو عملية متوازية جدًا، والقدرة الحاسوبية مهمة جدًا.

2، فك التشفير الجزء الأول (Decode Part 1): يتضمن قراءة ذاكرة KV (KV Cache) — التي تخزن السياق، بما في ذلك مخرجات مرحلة التحميل المسبق — لإجراء حسابات الانتباه. هذه خطوة متسلسلة تعتمد على عرض النطاق الترددي، ومتطلباتها للذاكرة تتغير وتزداد مع الوقت.

3، فك التشفير الجزء الثاني (Decode Part 2): هو حسابات التغذية الأمامية (Feed-forward computation) على أوزان النموذج؛ وهو أيضًا خطوة متسلسلة تعتمد على عرض النطاق الترددي، ومتطلباتها تعتمد على حجم النموذج.

هاتان الخطوتان تتناوبان عبر كل طبقة من النموذج (تعمل بشكل متداخل وليس بشكل متسلسل بسيط)، بمعنى أن الاستدلال تسلسلي، ويقيد بواسطة عرض النطاق الترددي للذاكرة (Memory-bandwidth bound). مع كل رمز يُنتج، يجب قراءة ذاكرتيْن مختلفتيْن بالكامل: KV التي تخزن السياق وتزداد مع كل رمز، وأوزان النموذج. كلاهما يجب قراءته بالكامل لإنتاج رمز واحد.

GPU تتوافق تمامًا مع هذه الاحتياجات الثلاثة: توفر قدرة عالية للتحميل المسبق، وتوفر ذاكرة HBM كافية لـ KV والأوزان، وتستخدم ربط الرقائق لتحقيق مشاركة الذاكرة عندما تكون الذاكرة على وحدة واحدة غير كافية. بمعنى آخر، البنية التي تصلح للتدريب تصلح أيضًا للاستدلال — كما يظهر في صفقة SpaceX مع Anthropic. ذكرت شركة Anthropic في مدونتها:

“وقعنا اتفاقية لاستخدام كل قدرة الحوسبة في مركز بيانات SpaceX Colossus 1. هذا يمنحنا أكثر من 300 ميغاواط من القدرة الجديدة (أكثر من 220 ألف GPU من Nvidia). هذا سيعزز بشكل مباشر قدرات خدمة Claude Pro وClaude Max.”

SpaceX احتفظت بـ Colossus 2 — يُفترض أنه مخصص للتدريب المستقبلي للنماذج، وأيضًا للاستدلال على النماذج الحالية. قدرتهم على تشغيل هذين العملين في نفس المركز، تعود إلى أن نماذج xAI الحالية ليست كبيرة جدًا؛ والأهم أن التدريب والاستدلال يمكن إتمامهما على GPU. في الواقع، كانت GPUs التي وقعت عليها Anthropic مخصصة أصلاً للتدريب، ومرنة جدًا.

فهم Cerebras

ما تصنعه Cerebras مختلف تمامًا. على الرغم من أن قطر الرقاقة السيليكونية 300 مم، إلا أن “حدود القناع” (Reticle limit) — وهي أكبر مساحة يمكن تعريضها بواسطة أدوات الطباعة الضوئية — حوالي 26×33 مم. هذا هو الحد الأقصى لحجم الرقاقة؛ وما يتجاوز ذلك يتطلب ربط رقائق مستقلة عبر “طبقة وسيطة” (interposer layer)، وهو ما فعلته Nvidia في B200. لكن Cerebras ابتكرت طريقة لربط عبر “خطوط الكتابة” (Scribe lines) — وهي الحدود بين عمليات الطباعة — بحيث تصنع رقاقة واحدة من كامل الرقاقة السيليكونية، بدون الحاجة إلى ربط بين الرقائق بشكل بطيء.

النتيجة: رقاقة ذات قدرة حسابية هائلة وذاكرة SRAM ضخمة وسريعة جدًا. مقارنة البيانات: أحدث إصدار من Cerebras، WSE-3، يحتوي على 44 جيجابايت من SRAM على الرقاقة، مع عرض نطاق ترددي يصل إلى 21 PB/s؛ بينما H100 من Nvidia يحتوي على 80 جيجابايت من HBM، مع عرض نطاق ترددي 3.35 TB/s. بمعنى آخر، على الرغم من أن ذاكرة WSE-3 أقل من H100 بنحو النصف، إلا أن عرض النطاق الترددي للذاكرة يتفوق بمقدار 6000 مرة.

اختيار مقارنة WSE-3 مع H100 لأنه من أكثر الرقائق استخدامًا في الاستدلال، والذي هو المجال الأبرز لـCerebras. يمكن استخدام Cerebras في التدريب، لكن شبكة ربط الرقائق ليست مغرية، مما يعني أن معظم القدرة الحاسوبية وذاكرة الرقاقة تكون غير مستغلة؛ والأهم أنها تستطيع توليد تدفقات الرموز بسرعة تفوق GPU بكثير.

لكن، قيود التدريب تنعكس أيضًا على الاستدلال: طالما أن البيانات كلها يمكن وضعها في ذاكرة الرقاقة، فإن سرعة Cerebras تكون مثالية؛ لكن إذا تجاوزت متطلبات الذاكرة الحد الأقصى (سواء كان النموذج أكبر، أو ذاكرة KV أطول)، فإن Cerebras لن يكون مناسبًا، خاصة مع سعره. تقنية “الرقاقة الواحدة من كامل الرقاقة” تعني أن معدل الإنتاجية يعتمد على نسبة عالية من الجودة، وهو تحد كبير يزيد من التكاليف.

وفي الوقت نفسه، أعتقد أن نوعية شرائح Cerebras ستجد سوقًا: الشركة تركز حاليًا على سرعة البرمجة — الاستدلال يتطلب توليد عدد كبير من الرموز، مما يعادل سرعة تفكير أسرع. لكن أعتقد أن هذا مجرد استخدام مؤقت، وسنوضح السبب لاحقًا. الأهم هو كم من الوقت يحتاج الإنسان ليحصل على الإجابة، ومع انتشار أجهزة الذكاء الاصطناعي القابلة للارتداء، فإن سرعة التفاعل (خصوصًا عبر الصوت، والتي تعتمد على سرعة توليد الرموز) ستؤثر بشكل جوهري على تجربة المستخدم.

الاستدلال الوكيل (Agentic Inference)

سبق أن اقترحت أن هناك ثلاث نقاط تحول في عصر النماذج اللغوية الكبيرة (LLMs):

إثبات ChatGPT فاعلية توقع الرموز.

إدخال مفهوم الاستدلال، أي أن المزيد من الرموز يؤدي إلى إجابات أفضل.

إدخال Opus 4.5 وClaude Code لأول مرة للـالوكيلات (Agents)، التي يمكنها استخدام نماذج الاستدلال وإطار عمل يتضمن أدوات، والتحقق من العمل، وأداء المهام بشكل فعلي.

رغم أن كل هذه تنتمي إلى فئة “الاستدلال”، أعتقد أن هناك تمييزًا واضحًا بين نوعين: تقديم الإجابة — الذي أسميه “الاستدلال بالإجابة” (Answer inference) — وتنفيذ المهام — الذي أسميه “الاستدلال الوكلي (Agentic inference)”. سوق Cerebras موجه نحو “الاستدلال بالإجابة”، لكن على المدى الطويل، أرى أن بنية “الاستدلال الوكلي” ستختلف تمامًا عن مسار Cerebras أو GPU.

ذكرت سابقًا أن سرعة الاستدلال في البرمجة هي مجرد حالة مؤقتة. حاليًا، برمجة النماذج اللغوية تتطلب مشاركة بشرية: تحديد المهام، فحص الكود، تقديم طلبات السحب (PR). لكن من المتوقع أن تتغير الأمور، بحيث تُدار كلها بواسطة الآلات، مما يوسع نطاق العمل الذكي: القوة الحقيقية للوكيل ليست في إنجاز العمل للبشر، بل في العمل المستقل بعيدًا عن التدخل البشري.

وبالتالي، فإن الحل الأمثل للاستدلال الوكلي سيكون مختلفًا تمامًا عن الاستدلال بالإجابة. أهم شيء في الاستدلال بالإجابة هو سرعة الرموز؛ أما في الاستدلال الوكلي، فالأهم هو الذاكرة (Memory). الوكيل يحتاج إلى سياق، وحالة، وتاريخ. جزء من ذلك موجود في ذاكرة KV النشطة، وجزء في ذاكرة المضيف أو SSD، والمزيد في قواعد البيانات، والسجلات، والتضمينات، والتخزين الكائني. النقطة الأساسية: أن الاستدلال الوكلي لن يكون مجرد GPU يجيب على سؤال، بل نظام ذاكرة معقد مبني حول النموذج.

الأمر الحاسم هو أن هذا الهرم من الذاكرة المخصصة للوكيل يشير إلى توازن ضروري: السرعة مقابل السعة. وإذا لم يكن هناك تدخل بشري في الوقت الحقيقي، فإن انخفاض السرعة لن يكون مشكلة أساسية. إذا كان الوكيل يعمل طوال الليل، فهو لا يهتم بالتأخير في تجربة المستخدم؛ المهم هو إنجاز المهمة. إذا كانت طرق الذاكرة الجديدة تتيح إنجاز مهام معقدة، فبعض التأخير مقبول.

وفي الوقت نفسه، إذا لم يكن التأخير هو المعيار الأهم، فإن السعي وراء أعلى قدرة حاسوبية وذاكرة عالية النطاق الترددي (HBM) يصبح غير منطقي: إذا لم يكن التأخير قيدًا، فإن الذاكرة الأبطأ والأرخص (مثل DRAM التقليدي) تصبح أكثر جاذبية. وإذا كانت كل العمليات تنتظر استجابة الذاكرة، فلن يحتاج الرقاقة إلى أحدث عملية تصنيع. هذا قد يغير بنية الأنظمة بشكل عميق، لكنه لا يعني أن البنى الحالية ستختفي:

التدريب (Training): سيظل مهمًا، وستظل بنية Nvidia الحالية (عالية القدرة، عالية النطاق الترددي، وشبكة سريعة) مسيطرة.

الاستدلال بالإجابة (Answer inference): سيكون سوقًا مهمًا لكنه أصغر نسبيًا، مع فائدة كبيرة من تقنيات مثل Cerebras أو Groq.

الاستدلال الوكلي (Agentic inference): سيتفكك تدريجيًا عن GPU. عيوب GPU في إهدار الذاكرة أثناء التحميل، وإهدار القدرة أثناء فك التشفير، ستبرز أكثر. وسيحل محلها أنظمة ذات سعة عالية وتكلفة منخفضة، مع قدرة حسابية “كافية”. في الواقع، سرعة المعالجة للأدوات عبر CPU قد تكون أكثر أهمية من GPU.

وهذه الفئات ليست متساوية في الحجم والأهمية. بشكل خاص، الاستدلال الوكلي سيكون السوق الأكبر مستقبلًا، لأنه غير محدود بعدد البشر أو الوقت. اليوم، الوكيل مجرد استجابة متطورة؛ لكن المستقبل الحقيقي هو أن الحواسيب ستنفذ أوامر حواسيب أخرى، وسوقه لن يتأثر بعدد السكان، بل بزيادة القدرة الحاسوبية.

تأثير الاستدلال الوكلي على القدرة الحاسوبية

حتى الآن، عند الحديث عن “زيادة القدرة مع توسع القدرة الحاسوبية”، غالبًا ما يُعبر عن تفاؤل بنفوذ Nvidia. لكن، تفوق Nvidia حتى الآن يعتمد بشكل كبير على تقليل التأخير: شرائح Nvidia سريعة جدًا، لكن لضمان عدم إهدار القدرة، يتطلب الأمر استثمارات ضخمة في توسيع HBM والشبكات. إذا لم يعد التأخير هو المعيار، فإن خطة Nvidia قد لا تكون مجدية من حيث التكلفة.

شركة Nvidia أدركت هذا التحول: أطلقت إطار عمل Dynamo لمساعدة في تفكيك أجزاء الاستدلال، وأطلقت منتجات ذاكرة مستقلة ورفوف CPU لتحقيق ذاكرة KV أكبر، وأدوات أسرع، للحفاظ على نشاط GPU. لكن، في النهاية، قد تبحث شركات السحابة الكبرى عن بدائل من غير GPU، لأسباب تتعلق بالتكلفة والسهولة، في مهام الاستدلال الوكلي.

وفي الوقت نفسه، الصين تفتقر إلى القدرة الحاسوبية الفائقة، لكنها تملك كل ما يلزم للاستدلال الوكلي: GPU بسرعة، CPU بسرعة، وذاكرة DRAM، وأقراص صلبة. التحدي هو القدرة على التدريب، بالإضافة إلى أن الاستدلال بالإجابة قد يكون أكثر أهمية للأمن الوطني (خاصة في التطبيقات العسكرية).

وجهة نظر أخرى مثيرة للاهتمام هي الفضاء (Space): الشرائح الأبطأ تجعل “مراكز البيانات الفضائية” أكثر جدوى. أولًا، إذا كانت الذاكرة قابلة للتوصيل خارجيًا، يمكن تصنيع شرائح أبسط وأبرد. ثانيًا، العمليات القديمة ذات الحجم الأكبر مقاومة بشكل أفضل للإشعاع الفضائي. ثالثًا، استهلاك الطاقة أقل، مما يقلل من الحاجة إلى التبريد. رابعًا، العمليات القديمة أكثر موثوقية، وهو أمر حاسم في الأقمار الصناعية التي لا يمكن إصلاحها.

رئيس Nvidia، Jensen Huang، يقول دائمًا “قانون مور مات”؛ يقصد أن المستقبل يعتمد على الابتكار على مستوى النظام. لكن، عندما يمكن للوكيل أن يعمل بشكل مستقل عن البشر، فإن الدرس الأعمق هو: لم يعد قانون مور مهمًا. نحن نحصل على المزيد من القدرة الحاسوبية لأننا أدركنا أن القدرة الحالية “كافية جدًا”.

NVDA‎-4.36%
XAI‎-5.39%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت