في أسبوع إدراج Cerebras، شرح أحدث مقالات بن تومسون بشكل شامل: تطور الذكاء الاصطناعي من “الدردشة” إلى “تنفيذ المهام الذاتية”، وتغير عنق الزجاجة في بنية الرقائق.

أنت تتحدث مع دُبّاقو، وتنتظر السرعة؛ عندما يقوم Kimi Claw بتنفيذ مهمة لمدة 5 ساعات نيابة عنك، فهو لا يهتم بسرعة 3 ثوانٍ أو 30 ثانية أبطأ — ما يهمه هو هل يمكنه تذكر السياق، وهل يمكنه الاستمرار في العمل. مع كل خطوة يُنفذها، يتضخم ذاكرة العمل (ذاكرة التخزين المؤقت KV). GPU مصمم لـ"انتظار الإنسان أمام الشاشة": عند التحميل المسبق، يكون الذاكرة فارغة، وعند فك التشفير، يكون الحوسبة فارغة — نصف الوقت في الانتظار.

العقبة الحقيقية ليست في سرعة الحساب، بل في مدى القدرة على الاحتفاظ بالبيانات وقراءتها بسرعة. والأهم من ذلك، أن الوكيل طويل الأمد يحول ذاكرة KV من مخزن مؤقت إلى ذاكرة عمل دائمة. من يستطيع جعل هذه الذاكرة تدوم أطول، وتُعاد استخدامها بكفاءة أعلى، وتكلفتها أقل، هو من يملك مفتاح اقتصاد الوكيل.

هذا أهم بكثير من نتائج الاختبارات.

أما عن توقيت الإدراج، فأن تؤسس شركة شرائح في مايو 2026 هو تقريبًا الخيار المثالي. ذكرت رويترز في نهاية الأسبوع:

أخبر شخصان مطلعان رويترز يوم الأحد أن الطلب المستمر على أسهم شركة شرائح الذكاء الاصطناعي يدفع Cerebras Systems على الأرجح لتعديل حجم و سعر الاكتتاب العام الأولي (IPO) يوم الاثنين. وقال المصدران إن الشركة تدرس رفع نطاق السعر من 115-125 دولار للسهم إلى 150-160 دولار، وزيادة عدد الأسهم المصدرة من 28 مليون إلى 30 مليون، لكن المعلومات غير منشورة بعد، وكلاهما طلب عدم الكشف عن هويته.

الارتفاع المستمر في أسهم أشباه الموصلات مدفوع بشكل أساسي بالذكاء الاصطناعي — خاصة مع إدراك السوق تدريجيًا أن: الكيانات الذكية (Agents) ستستهلك قدرًا هائلًا من القدرة الحاسوبية (Compute). لكن ما تشير إليه Cerebras أوسع نطاقًا: حتى الآن، رواية القدرة الحاسوبية للذكاء الاصطناعي تركز تقريبًا على GPU، وعلى Nvidia؛ بينما المستقبل سيكون أكثر تغايرًا (Heterogeneous).

عصر GPU

قصة كيف أصبح GPU مركز الذكاء الاصطناعي أصبحت من المسلمات، باختصار:

كما أن رسم البكسلات على الشاشة هو عملية متوازية (Parallel process) — كلما زاد عدد وحدات المعالجة، زادت سرعة الرسوميات — فإن حسابات الذكاء الاصطناعي كذلك: عدد وحدات المعالجة يحدد سرعة الحساب مباشرة.
Nvidia استغلت هذه “الوظيفتين” بشكل جيد: جعلت معالجات الرسوميات قابلة للبرمجة (Programmable)، ووفرت بيئة برمجية كاملة عبر CUDA، مما وسع من قدرات البرمجة لجميع المطورين.
الفرق الجوهري بين الرسوميات والذكاء الاصطناعي هو حجم المشكلة — النماذج أكبر بكثير من textures في ألعاب الفيديو. أدى ذلك إلى تطورين متلازمين: زيادة سعة الذاكرة عالية النطاق الترددي (HBM) على كل GPU؛ وتحقيق تقدم كبير في ربط الشرائح (شبكة بين الشرائح) بحيث يمكن لعدة شرائح أن تعمل كوحدة قابلة للعناونة (Addressable system). Nvidia تتصدر في كلا المسارين.
الاستخدام الرئيسي للـGPU هو التدريب، وهو يتطلب بشكل خاص النقطة الثالثة. كل خطوة تدريبية داخلية متوازية بشكل كبير، لكن بين الخطوات تكون متسلسة: قبل الانتقال للخطوة التالية، يجب على كل GPU أن يزامن نتائجه مع باقي الشرائح. لهذا، يحتاج نموذج يتكون من تريليون معلمة إلى عشرات الآلاف من الـGPU، ويجب أن تتواصل هذه الشرائح كأنها جهاز واحد. Nvidia تسيطر على هذين التحديين: أولًا، حجز إمدادات HBM قبل الجميع، وثانيًا استثمار طويل الأمد في تقنيات الشبكة.

بالطبع، التدريب ليس العمل الوحيد للذكاء الاصطناعي، فهناك أيضًا الاستدلال (Inference). يتضمن الاستدلال ثلاثة أجزاء رئيسية:

1. التحميل المسبق (Prefill): ترميز كل المحتوى الذي يحتاج النموذج الكبير لفهمه في حالة قابلة للفهم؛ وهو عملية متوازية عالية، والحوسبة فيها حاسمة.

2. فك التشفير الجزء الأول (Decode Part 1): يتضمن قراءة ذاكرة KV (KV Cache) — التي تخزن السياق، بما في ذلك مخرجات مرحلة التحميل المسبق — لإجراء حسابات الانتباه. هذه خطوة متسلسلة ذات عرض نطاق ترددي حاسم، ومتطلباتها للذاكرة تتغير وتزداد مع الوقت.

3. فك التشفير الجزء الثاني (Decode Part 2): هو حسابات التغذية الأمامية (Feed-forward) على أوزان النموذج؛ وهو أيضًا خطوة متسلسلة تعتمد بشكل كبير على عرض النطاق الترددي، ويعتمد حجم الذاكرة على حجم النموذج.

هاتان الخطوتان تتناوبان عبر كل طبقة من النموذج (تعمل بشكل متداخل وليس بشكل متسلسل بسيط)، بمعنى أن الاستدلال تسلسلي ويقيد بواسطة عرض النطاق الترددي للذاكرة. مع كل رمز يُنتج، يجب قراءة ذاكرتي KV ووزن النموذج بالكامل، ويجب أن يُقرأ كل منهما بشكل كامل لإنتاج رمز واحد.

GPU تتعامل بشكل مثالي مع هذه الاحتياجات الثلاثة: توفر حوسبة عالية للتحميل المسبق، وذاكرة HBM كافية لذاكرة KV والأوزان، وتسمح الشبكة بين الشرائح بتوحيد الذاكرة عند الحاجة. بمعنى آخر، البنية المعتمدة على التدريب تصلح أيضًا للاستدلال — كما يظهر في صفقة SpaceX و Anthropic. ذكرت Anthropic في مدونتها:

“وقعنا اتفاقية لاستخدام كل قدرة الحوسبة في مركز بيانات SpaceX Colossus 1. هذا يمنحنا أكثر من 300 ميغاواط من القدرة الجديدة (أكثر من 220 ألف GPU من Nvidia). هذا سيعزز بشكل مباشر قدرات خدمة Claude Pro وClaude Max.”

SpaceX احتفظت بـ Colossus 2 — يُعتقد أنه مخصص للتدريب المستقبلي للنماذج، وأيضًا للاستدلال على النماذج الحالية. قدرتهم على تشغيل هذين العملين في نفس المركز، تعود إلى أن نماذج xAI الحالية ليست كبيرة جدًا؛ والأهم أن التدريب والاستدلال يمكن إتمامهما على GPU، وهو مرونة هائلة.

تفسير Cerebras

ما تصنعه Cerebras مختلف تمامًا. على الرغم من أن قطر الرقاقة السيليكونية يبلغ 300 مم، إلا أن “حدود القناع” (Reticle limit) — وهي أكبر مساحة يمكن تعريضها بواسطة أدوات الطباعة الضوئية — حوالي 26×33 مم. هذا هو الحد الأقصى لحجم الرقاقة؛ وما يتجاوز ذلك يتطلب ربط رقاقتين عبر “طبقة وسيطة” (interposer)، وهو ما فعلته Nvidia في B200. لكن Cerebras ابتكرت طريقة لربط الرقائق عبر “خطوط الكتابة” (Scribe lines) — وهي الحدود بين عمليات التعريض — بحيث تصنع رقاقة واحدة من كامل الرقاقة السيليكونية، دون الحاجة إلى ربط شرائح ببطء.

النتيجة: رقاقة ذات قدرة حسابية هائلة وذاكرة SRAM ضخمة وسريعة جدًا. مقارنة البيانات: أحدث إصدار من Cerebras، WSE-3، يحتوي على 44 جيجابايت من SRAM على الرقاقة، مع عرض نطاق ترددي يصل إلى 21 بيتابايت في الثانية؛ بينما H100 من Nvidia يحتوي على 80 جيجابايت من HBM، مع عرض نطاق ترددي 3.35 تيرابايت في الثانية. بمعنى آخر، على الرغم من أن ذاكرة WSE-3 أقل من H100 بنحو النصف، إلا أن عرض النطاق الترددي للذاكرة فيها 6000 مرة أكبر.

اختيار مقارنة WSE-3 مع H100 لأنه من أكثر شرائح الاستدلال استخدامًا حاليًا، ووضوح أن Cerebras تتفوق في سرعة توليد الرموز. يمكن استخدام Cerebras للتدريب، لكن شبكة ربط الشرائح ليست مغرية، مما يعني أن معظم القدرة والذاكرة على الرقاقة تكون غير مستغلة؛ والأهم أنها تستطيع توليد الرموز بسرعة تفوق GPU بكثير.

لكن، قيود التدريب تنعكس أيضًا على الاستدلال: طالما أن البيانات كلها يمكن وضعها في ذاكرة الرقاقة، فإن سرعة Cerebras تكون مثالية. لكن إذا تجاوزت الحاجة للذاكرة الحد الأقصى (مثل نماذج أكبر أو ذاكرة KV أطول)، فإن Cerebras لن يكون مناسبًا، خاصة مع تكلفته. تقنية “الرقاقة الواحدة من كامل الرقاقة” تتطلب معدلات إنتاج عالية، وهو تحدٍ كبير، مما يرفع التكاليف بشكل كبير.

وفي الوقت نفسه، أعتقد أن شرائح Cerebras ستجد سوقًا: تركز الشركة حاليًا على سرعة البرمجة — الاستدلال يتطلب توليد عدد كبير من الرموز، مما يعزز سرعة الرموز في الثانية، وهو ما يعادل سرعة تفكير أسرع. لكنني أرى أن هذا مجرد استخدام مؤقت، وسنوضح السبب لاحقًا. الأهم هو كم من الوقت يحتاج الإنسان ليحصل على الإجابة، ومع انتشار أجهزة الذكاء الاصطناعي القابلة للارتداء، فإن سرعة التفاعل (خصوصًا الصوتي، والذي يعتمد على سرعة توليد الرموز) ستؤثر بشكل جوهري على تجربة المستخدم.

الاستدلال الوكيل (Agentic Inference)

سبق أن اقترحت أن هناك ثلاث نقاط تحول في عصر النماذج اللغوية الكبيرة (LLMs):

1. إثبات ChatGPT أن توقع الرموز عملية ذات فائدة.

2. إدخال مفهوم الاستدلال، حيث أن المزيد من الرموز يؤدي إلى إجابات أفضل.

3… إدخال Opus 4.5 وClaude Code لأول مرة للـالوكيلات (Agents)، التي يمكنها استخدام نماذج الاستدلال وإطار عمل يتضمن أدوات، والتحقق من العمل، وأداء المهام.

رغم أن كل هذه تنتمي إلى فئة “الاستدلال”، أعتقد أن الفرق بين تقديم الإجابة — الذي أسميه “الاستدلال بالإجابة” (Answer inference) — وتنفيذ المهام — الذي أسميه “الاستدلال الوكلي” (Agentic inference) — أصبح واضحًا. سوق Cerebras موجه نحو “الاستدلال بالإجابة”، لكن على المدى الطويل، أرى أن بنية “الاستدلال الوكلي” ستختلف تمامًا عن مسار Cerebras أو حتى GPU.

ذكرت سابقًا أن الاستدلال السريع للبرمجة هو مجرد حالة مؤقتة. حاليًا، برمجة الـLLM تتطلب مشاركة بشرية: تحديد المهام، فحص الكود، تقديم طلبات السحب (PR). لكن من المتوقع أن تتغير الأمور، بحيث تُدار كلها بواسطة الآلات، مما يوسع نطاق العمل الذكي. القوة الحقيقية للوكيل ليست في مساعدة البشر، بل في العمل المستقل بعيدًا عن التدخل البشري.

وبالتالي، فإن الحل الأمثل للاستدلال الوكلي سيكون مختلفًا تمامًا عن الاستدلال بالإجابة. فـ"الاستدلال بالإجابة" يركز على سرعة الرموز؛ بينما “الاستدلال الوكلي” يركز على الذاكرة (Memory). الوكيل يحتاج إلى سياق، وحالة، وتاريخ. جزء من ذلك موجود في ذاكرة KV النشطة، وجزء في ذاكرة المضيف أو SSD، والمزيد في قواعد البيانات، والسجلات، والتضمينات، والتخزين الكائني. النقطة الأساسية: أن الاستدلال الوكلي لن يكون مجرد إجابة من GPU، بل نظام ذاكرة معقد مبني على طبقات.

الأمر الحاسم هو أن هذا الهرم من الذاكرة المخصص للوكيل يشير إلى توازن ضروري: السرعة مقابل السعة. وإذا لم يكن هناك تدخل بشري في الوقت الحقيقي، فإن انخفاض السرعة لن يكون مشكلة. إذا كان الوكيل يعمل طوال الليل، فهو لا يهتم بالتأخير في تجربة المستخدم؛ المهم أن ينهي المهمة. إذا كانت طرق الذاكرة الجديدة تتيح إنجاز مهام معقدة، فبعض التأخير مقبول.

وفي الوقت نفسه، إذا لم يكن التأخير هو المعيار الرئيسي، فإن السعي وراء أعلى قدرة حوسبة وذاكرة عالية النطاق (HBM) يصبح غير منطقي: إذا لم يكن التأخير قيدًا، فإن الذاكرة الأبطأ والأرخص (مثل DRAM التقليدي) تصبح أكثر جاذبية. وإذا كانت كل العمليات تنتظر استجابة الذاكرة، فلن يحتاج الشريحة إلى أحدث عملية تصنيع. هذا قد يغير بنية الأنظمة بشكل عميق، لكنه لا يعني أن البنى الحالية ستختفي:

التدريب (Training): سيظل مهمًا، وستظل بنية Nvidia الحالية (حوسبة عالية، وذاكرة عالية النطاق، وشبكة سريعة) مسيطرة.
الاستدلال بالإجابة (Answer inference): سيكون سوقًا مهمًا لكنه أصغر، مع شرائح مثل Cerebras أو Groq التي ستقدم أداءً فائقًا.
الاستدلال الوكلي (Agentic inference): سيتفكك تدريجيًا عن الـGPU. عيوب الـGPU في إهدار الذاكرة أثناء التحميل، وإهدار الحوسبة أثناء فك التشفير، ستبرز أكثر. وسيحل محلها أنظمة ذات سعة عالية وتكلفة منخفضة، مع “قدرة كافية” من الحوسبة. في الواقع، سرعة المعالجة للأدوات عبر المعالجات (مثل CPU) قد تكون أكثر أهمية من سرعة الـGPU.

وهذه الفئات ليست متساوية في الحجم والأهمية. بشكل خاص، الاستدلال الوكلي سيكون السوق الأكبر مستقبلًا، لأنه غير محدود بعدد البشر أو الوقت. اليوم، الوكيل هو مجرد استجابة متطورة؛ لكن المستقبل الحقيقي هو أن الحواسيب ستنفذ أوامر حواسيب أخرى، وسوقه لن يتأثر بزيادة السكان، بل بتوسع القدرة الحاسوبية.

الدروس المستفادة من الاستدلال الوكلي

حتى الآن، عند الحديث عن “توسع القدرة الحاسوبية”، غالبًا ما يُقصد Nvidia، لكن تفوقها حتى الآن يعتمد بشكل كبير على تقليل التأخير: شرائح Nvidia سريعة جدًا، لكن لتحقيق ذلك، تحتاج استثمارات ضخمة في توسيع HBM والشبكة. إذا لم يعد التأخير هو المعيار، فإن خطة Nvidia قد لا تكون مجدية من حيث التكلفة.

شركة Nvidia أدركت هذا التحول: أطلقت إطار عمل Dynamo لتحليل أجزاء الاستدلال المختلفة، وأطلقت منتجات ذاكرة مستقلة ورفوف CPU، لزيادة حجم ذاكرة KV وتسريع استدعاء الأدوات، مما يحافظ على نشاط الـGPU. لكن، في النهاية، قد تبحث شركات السحابة الكبرى عن بدائل من غير الـGPU، لأسباب تتعلق بالتكلفة والبساطة، خاصة في مهام الاستدلال الوكلي.

وفي الوقت نفسه، الصين تفتقر إلى القدرة الحاسوبية الفائقة، لكنها تملك كل ما يلزم للاستدلال الوكلي: GPU بسرعة كافية، CPU بسرعة، وذاكرة DRAM، وأقراص صلبة. التحدي هو القدرة على التدريب، وأيضًا أن الاستدلال بالإجابة قد يكون أكثر أهمية للأمن الوطني (خاصة في التطبيقات العسكرية).

وجهة نظر أخرى مثيرة للاهتمام هي الفضاء (Space): الشرائح الأبطأ تجعل “مراكز البيانات الفضائية” أكثر جدوى. أولًا، إذا كانت الذاكرة قابلة للتوصيل خارجيًا، يمكن تصنيع الشرائح بشكل أبسط، وتعمل بشكل أبرد. ثانيًا، العمليات القديمة، بسبب حجمها الفيزيائي الأكبر، تكون أكثر مقاومة للإشعاع الفضائي. ثالثًا، استهلاك الطاقة أقل، مما يقلل من الحاجة إلى التبريد. رابعًا، العمليات القديمة أكثر موثوقية، وهو أمر حاسم في الأقمار الصناعية التي لا يمكن إصلاحها.

رئيس Nvidia، Jensen Huang، يقول دائمًا “قانون مور مات”؛ يقصد أن المستقبل يعتمد على الابتكار على مستوى النظام. لكن، عندما يتمكن الوكيل من العمل بشكل مستقل عن البشر، فإن الدرس الأعمق هو: لم يعد قانون مور مهمًا. الطريقة التي نزيد بها القدرة الحاسوبية هي إدراك أن قدراتنا الحالية “كافية جدًا”.

NVDAX‎-6.73%

XAI‎-5.85%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.82M درجة الشعبية
#
CLARITYActPassesSenateCommittee
3.38M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
46.79K درجة الشعبية
#
#DailyPolymarketHotspot
955.85K درجة الشعبية
#
BitcoinVShapedReversalBack
178.98M درجة الشعبية

مُثبت

خريطة الموقع

فهم Cerebras: القوة الحاسوبية تثير تفكير الذكاء الاصطناعي، والذاكرة تمكّن الوكيل من أداء المهام

عصر GPU

تفسير Cerebras

الاستدلال الوكيل (Agentic Inference)

الدروس المستفادة من الاستدلال الوكلي

المواضيع الرائجة

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

مُثبت