أعلن هوان رونغشون أن عصر الاستنتاج قد حل، ماذا ستجلب LPU من متغيرات جديدة؟

في يوم 16 مارس (بالتوقيت المحلي)، كشف الرئيس التنفيذي لشركة إنفيديا، هوانغ رين-سونغ، في مؤتمر GTC عن منصة حوسبة جديدة بالكامل مخصصة للذكاء الاصطناعي الخاص بالعملاء — NVIDIA Vera Rubin.

تشبه هذه المنصة مجموعة «معدات حوسبة» فائقة، إذ تجمع عدة مكونات أساسية، تشمل Vera CPU (وحدة المعالجة المركزية)، وRubin GPU (وحدة معالجة الرسوميات)، وNVLink 6 Switch (محول)، وConnectX-9 SuperNIC (بطاقة شبكة فائقة)، وBlueField-4 DPU (وحدة معالجة البيانات)، وSpectrum-6 (محول إيثرنت)، بالإضافة إلى Groq 3 LPU الجديد (وحدة معالجة اللغة).

وبعبارة بسيطة، إنها مجموعة من العتاد مخصصة بالكامل للذكاء الاصطناعي، تجعل الحوسبة أسرع وأكثر ذكاءً.

ومن بينها، طوّرت إنفيديا أيضًا Groq 3 LPX Rack مصممًا للنشر واسع النطاق. وهذا يعني أنها يمكنها تجميع مئات وحدات LPU للعمل بشكل تعاوني كما لو كانت «عقلًا خارقًا»، لتحقيق سرعة استدلال فائقة وقدرات هائلة لمعالجة النصوص. يضم هذا الرف 256 LPU، ويأتي مزودًا بتخزين عالي السرعة على الشريحة بسعة 128GB، وتصل سرعة النقل إلى 640 TB/s.

وبحسب أشخاص يعملون في القطاع، فإن أبرز ما في هذا الإعلان لا يتمثل فقط في ترقية الرقائق، بل في قفزة نوعية في كثافة تكامل النظام. وقال تشوانغ تشانغ-لي، مدير مجموعة الذكاء الاصطناعي/التصنيع الذكي في شركة Yunshan Capital، في مقابلة مع مراسل موقع 21st Century Economic Herald: «أكبر تغيير هو أن إنفيديا رفعت LPU من كونها شريحة أو بطاقة تسريع منفردة، إلى أن تصبح نظام رف من فئة مناظرة لـ GPU على مستوى أعلى».

وخاصة أن عدد LPU في رف LPX ارتفع من 64 قطعة في الجيل الأول إلى 256 قطعة دفعة واحدة؛ فإن هذه القفزة في الكثافة تتجاوز بكثير توقعات الصناعة، كما تعكس الطلب الملح في السوق على استدلال نصوص طويلة بزمن تأخير منخفض جدًا.

يرى تشوانغ تشانغ-لي أن ذلك يشير إلى أن حوسبة الذكاء الاصطناعي تتجه من «التدريب باعتباره الأهم» إلى «التدريب والاستدلال جنبًا إلى جنب»، وأن الاستدلال أصبح بنية تحتية جديدة على مستوى النظام.

التركيز على الاستدلال

تُعد LPU بنية شريحة جديدة مصممة للمهام شديدة كثافة الحوسبة ذات المعالجة التسلسلية. ويتمثل هدفها الأساسي في تحسين كفاءة استدلال نماذج اللغة عبر ابتكارات معمارية.

من ناحية المعمارية، تُدمج كل LPU من Groq 3 500 MB من SRAM: أحد العناصر الأساسية في LPU هو كتلة MEM، وهي بنية ذاكرة مسطحة ومُعطية الأولوية للـ SRAM. وفيها تبلغ 500 MB من SRAM عالية السرعة على الشريحة المخزن الرئيسي للعمل خلال الاستدلال.

(مصدر الصورة: الموقع الرسمي لشركة NVIDIA)

يقوم المجمّع ووقت التشغيل بوضع مجموعة العمل النشطة (بما في ذلك الأوزان، والـ activations، وحالة KV) داخل الذاكرة على الشريحة ونقل البيانات صراحةً، بدلًا من الاعتماد على ذاكرة تخزين مؤقت تدار بواسطة العتاد. وهذا يقلل من التأخيرات غير القابلة للتنبؤ، ويساعد على توفير زمن تأخير منخفض وثابت عبر وضع البيانات الأكثر حساسية للزمن بالقرب من موقع الحساب.

وقال تشوانغ تشانغ-لي للمراسل إن الميزة الجوهرية في Groq LPU ليست «السرعة» فحسب، بل «السرعة نفسها كل مرة» أي زمن تأخير حتمي. تتطلب هذه المعمارية ذات الحتمية الزمنية (Timing Deterministic) تخصيصًا عميقًا لسير خط الأنابيب للحساب، ووصول الذاكرة، والمجمّع، وتبلغ العتبة التقنية فيها مستوى مرتفعًا جدًا.

بالنسبة لسيناريوهات مثل التحكم الصناعي والقيادة الذاتية التي تفرض متطلبات صارمة على زمن الاستجابة اللحظية، فإن «الحتمية» تعد حاجة لا يمكن الاستغناء عنها. أما معمارية GPU العامة وASICs التي تبنيها شركات السحابة استنادًا إلى مجموعات تعليمات مبسطة، فمن الصعب عليها — مع الحفاظ على المرونة — تحقيق هذه الدرجة القصوى من الحتمية.

وأشار بحث في شركة Huatai Securities إلى أنه مقارنةً بـ CES في شهر يناير، بدأت مكانة Groq LPU ضمن خط منتجات إنفيديا ككل في مؤتمر GTC تصبح أوضح. تخطط إنفيديا للاستفادة من خاصية انخفاض التأخير في LPU لتلبية متطلبات التفاعلية المرتفعة للتطبيقات مثل Agent AI.

كما أشار تشوانغ تشانغ-لي إلى أنه عندما يتم كسر عنق الزجاجة في تأخير العتاد، سيصبح لدى مصممي النماذج مزيد من الثقة لاستكشاف ذكاء اصطناعي تفاعلي أكثر لحظية وأكثر تعقيدًا. فعلى سبيل المثال، قد يحتاج وكيل الذكاء الاصطناعي الحالي (AI Agent) إلى عدة ثوانٍ من وقت «التفكير»، بينما قد يتمكن المستقبل من تحقيق استجابة بمستوى المللي ثانية فعليًا. لن تكون النماذج «مجرد قذف كلمات»، بل ستتحاور معك بسلاسة وبشكل لحظي كما لو كنت تتحدث مع إنسان.

بدء عصر الفوتونيات السيليكونية

إضافةً إلى رف NVIDIA Groq 3 LPX، تتمثل إحدى أبرز النقاط في منصة Rubin أيضًا في رف NVIDIA Spectrum-6 SPX لإيثرنت.

وباستخدام تقنية السيليكون فوتونيكس Spectrum-X من التغليف الكهروضوئي المتكامل (CPO)، مقارنةً بالمُرسلات والمستقبلات القابلة للفصل التقليدية، ترتفع كفاءة الطاقة البصرية الأعلى بما يصل إلى 5 مرات، وتتحسن موثوقية النظام بمقدار 10 مرات.

قال تشوانغ تشانغ-لي: «Scale-Out (الترابط بين الخزائن) هو الزيادة الأكثر وضوحًا حاليًا». وأضاف أن منصة Rubin قد بدأت إدخال محولات CPO لحل مشكلة نقل «فيض البيانات» بين عدد كبير من الخزائن داخل مركز البيانات، ومن المتوقع أن تصبح 2027 نقطة زمنية مهمة لتوسع إدخال CPO على نطاق واسع.

وفي مؤتمر GTC، كشفت إنفيديا أيضًا أنه بعد Vera Rubin، فإن المعمارية المعمارية المهمة التالية لدى NVIDIA هي Feynman. وستتضمن هذه المعمارية وحدة CPU جديدة: NVIDIA Rosa.

ومنها، تُعد Rosa جوهر المنصة الجديدة. حيث ستجمع المنصة بين الجيل الجديد من LPU LP40 لدى NVIDIA وNVIDIA BlueField-5 وCX10، عبر NVIDIA Kyber لتحقيق التوسعة العمودية للتغليف الكهروضوئي المتكامل من خلال تمديدات الكابلات النحاسية والبصرية، بالإضافة إلى التوسعة الأفقية البصرية على مستوى Spectrum الخاصة بـ NVIDIA.

قال تشوانغ تشانغ-لي: «Scale-Up (داخل الخزائن/بين الشرائح) هو نقطة نظر أكثر استشرافًا». وفي معمارية Feynman، تخطط إنفيديا إلى إدخال NVLink 8 CPO لتحقيق «دخول الضوء إلى الخزانة»، أي استبدال جزء من وصلات اللوحة الخلفية النحاسية التقليدية بالترابط البصري، لربط GPU وLPU مباشرةً. وهذا يعني أن الترابط البصري يتحرك تدريجيًا من محولات الطرفية إلى داخل الخزانة الأساسية للحوسبة.

ومن منظور تشوانغ تشانغ-لي، فإن وحدات الوصل البصري كـ «أوعية دموية» لترابط القدرة الحاسوبية ترتفع قيمتها باستمرار مع التوسع في حجم عناقيد العملاء. ومع انتقال CPO من المختبر إلى الاستخدام التجاري على نطاق واسع، يكون عصر الفوتونيات السيليكونية قد بدأ، ما سيعزز مباشرة سلسلة صناعة معدات الاتصالات بأكملها لتحديثها.

قد تشهد متطلبات لوحات PCB عالية المستوى طفرة

كما ورد سابقًا، للتعامل مع متطلبات العملاء لنقص التأخير وزمن السياق الطويل، طرحت إنفيديا أيضًا Groq 3 LPX رفوف تسريع للاستدلال، ويشمل 256 معالج LPU. ومع الجمع مع Vera Rubin، يمكن رفع إنتاجية الاستدلال لكل ميغاواط بمقدار 35 مرة.

أما شحن LPU/LPX على شكل خزائن، فسيؤثر تأثيرًا جذريًا على صناعة PCB، وقد يكون ذلك أكبر حلقة تتجاوز التوقعات الفائقة في سلسلة الصناعة برمتها.

يقصد بـ PCB لوحة الدارات المطبوعة، وهي وسيط توصيل مكونات إلكترونية مع بعضها كهربائيًا. وقد انتشرت في ما يقرب من جميع الأجهزة الإلكترونية. وكصناعة PCB في البر الرئيسي الصيني باعتبارها المحرك الأساسي لتصنيع الإلكترونيات عالميًا، فإن نموها قوي.

وبفضل مزايا إدارة التكاليف، والمعايير البيئية، وتكامل سلسلة التوريد، فإن القيمة الإنتاجية لصناعة PCB في البر الرئيسي الصيني حاليًا تمثل أكثر من 50% من إجمالي القيمة عالميًا، وقد تشكلت معها تجمعات صناعية مثل خليج بوهايي، ودلتا نهر اللؤلؤ، ودلتا نهر اليانغتسي.

ومن منظور التدرج من المنبع إلى المصب، مع تضخم الطلب على الذكاء الاصطناعي، قامت رؤوس أموال شركات السحابة بزيادة الاستثمارات الرأسمالية بشكل مستمر، مما يدفع نحو شراء الخوادم الخاصة بالذكاء الاصطناعي، ومعدات التخزين، ومعدات الشبكات. وقد قدرت شركة China Securities Construction Investment (601066) أن مساحة سوق الخوادم الخاصة بـ GPU+ASIC المقابلة لسوق PCB تتجاوز 40 مليار يوان في عام 2025، وأكثر من 90 مليار يوان في عام 2026، وتضاعف معدل النمو.

قال تشوانغ تشانغ-لي بصراحة: «حاليًا، تواجه صناعة PCB للخوادم الخاصة بالذكاء الاصطناعي في العالم فجوة في التوازن بين العرض والطلب بنسبة 20%».

يرى تشوانغ تشانغ-لي أنه مع دخول خزائن LPU/LPX إلى ذروة الإنتاج الكمي بين نهاية 2026 وبداية 2027، ستظهر متطلبات PCB عالية المستوى في شكل «طفرة». و«سيؤدي ذلك إلى تفاقم الندرة الشديدة في PCB عالية الكثافة للترابط عالي الكثافة (HDI) وPCB ذات عدد الطبقات الكبير، ما سيدفع سلسلة صناعة PCB إلى جولة جديدة من التوسع في الإنتاج والترقية».

على سبيل المثال، نظرًا لأن خزائن LPU/LPX داخلية تحتاج إلى التعامل مع تدفقات هائلة من البيانات واتصالات منخفضة للغاية من حيث التأخير، فإن متطلبات عدد طبقات PCB والمواد والعمليات مرتفعة جدًا. وباعتبار رفوف LPU من إنفيديا مثالًا، يمكن أن تصل قيمة PCB للوحة رئيسية واحدة إلى 6000 دولار أمريكي، بينما تصل القيمة الإجمالية لـ PCB لرف كامل إلى 96k美元 (أي ما يعادل قرابة 700 ألف يوان رنمينبي). وهذا يمثل زيادة تتجاوز 10 مرات مقارنةً بقيمة PCB لخوادم الذكاء الاصطناعي التقليدية.

بالإضافة إلى ذلك، وبهدف مواكبة نقل الإشارات عالية السرعة 224Gbps وما فوق، ولتدعم الترابط عالي السرعة بين 256 LPU، يجب أن تعتمد PCB على مواد وقواعد تصميم أكثر تقدمًا. وبالنسبة للمواد، فإن القواعد العادية لم تعد كافية، ويجب ترقيتها إلى لوحات نحاسية مكسوة بمستوى M9. كما انتقلت المواد المقوية من القماش الليفي الزجاجي الإلكتروني العادي (E-glass) إلى قماش Q-glass الذي تبلغ قيمته أعلى بمقدار 10 مرات. وحتى أن المنتج القادم بدأ بالفعل في اختبار مواد M10.

قال تشوانغ تشانغ-لي إنه في معمارية Rubin Ultra، تم إدخال حتى حل للوحة ظهرية متعامدة، عبر 78 طبقة PCB لتحقيق ترابط مباشر بين GPU وNVSwitch، ما يقلل بشكل كبير استخدام الكابلات النحاسية. ويشير ذلك إلى أن PCB بدأ يحل محل جزء من دور الكابلات التقليدية، ليصبح «الهيكل العظمي» للترابط داخل الرف.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.26Kعدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • تثبيت