قال هوانغ رينشون في خطاب GTC إن الاستدلال أدى إلى زيادة مضاعفة في الطلب على القوة الحسابية بنسبة 100 مرة
في مؤتمر GTC اليوم، قدم هوانغ رينجيون Blackwell Ultra GPU الجديد تمامًا، بالإضافة إلى SKU للخادم المشتقة المستخدمة في الاستدلال والوكيل، وتشمل أيضًا عائلة منتجات RTX على أساس بنية Blackwell، وكل هذا مرتبط بالقوة الحسابية، ولكن الأهم بعد ذلك هو كيفية استهلاك القوة الحسابية بشكل معقول وفعال.
في نظر هوانغ ، هناك حاجة إلى قوة الحوسبة للوصول إلى AGI ، وتحتاج الروبوتات الذكية المتجسدة إلى قوة حوسبة ، ويتطلب بناء نماذج Omniverse والعالم تدفقا ثابتا من قوة الحوسبة ، وبالنسبة لمقدار قوة الحوسبة اللازمة للبشر لبناء "عالم مواز" افتراضي في النهاية ، أعطت Nvidia إجابة - 100 مرة من الماضي.
لدعم وجهة نظره، قام هوانغ رينغ شون بعرض مجموعة من البيانات في GTC - اشترت أربع شركات سحابية رئيسية في الولايات المتحدة ما مجموعه 1.3 مليون رقاقة بنية Hopper في عام 2024، وصعد هذا الرقم إلى 3.6 مليون رقاقة Blackwell GPU بحلول عام 2025.
النقاط الرئيسية لمؤتمر نفيديا GTC 2025 الذي قامت تقنية تنتسن بتنظيمه، كما قامت بتلخيصه تكنولوجيا تنتسن.
تم إطلاق علبة Blackwell
1) القنبلة النووية السنوية Blackwell Ultra في عصر الضغط على الأسنان
قامت NVIDIA بإصدار هندسة Blackwell في GTC العام الماضي وأطلقت شريحة GB200. تم تعديل الاسم الرسمي لهذا العام، حيث لم يعد يُطلق عليه الاسم الذي تم تداوله سابقًا GB300، بل سُمي مباشرة Blakwell Ultra.
ولكن من الناحية الأجهزة، فإنه يتم تبديل ذاكرة HBM الجديدة على أساس العام الماضي. ببساطة، Blackwell Ultra = إصدار ذاكرة كبيرة من Blackwell.
تم تجميع Blackwell Ultra من شريحتي تايوان سيميكوندكتور N4P (عملية 5 نانومتر) + بنية Blackwell Architecture + وحدة معالجة مركزية Grace CPU، مع ذاكرة HBM3e مكدسة بـ 12 طبقة أكثر تقدمًا، مع زيادة ذاكرة الوصول العشوائي إلى 288 جيجابايت، ودعم الجيل الخامس من NVLink كما في الجيل السابق، مما يتيح تحقيق عرض نطاق بيانات بين القطع بسرعة 1.8 تيرابايت/ثانية.
بناءً على ترقية التخزين، يمكن لقدرة حساب دقة FP4 لـ Blackwell GPU أن تصل إلى 15 بيتافلوبس، وسرعة الاستدلال بناءً على آلية التسارع Attention يمكن أن ترتفع بمقدار 2.5 مرة مقارنة برقاقة هوبر.
2)Blackwell Ultra NVL72:حجابة خاصة بالذكاء الاصطناعي للاستدلال
مثل GB200 NVL72 ، قدمت NVIDIA هذا العام أيضًا منتجًا مماثلًا وهو خزانة Blackwell Ultra NVL72 ، والتي تتألف من مجموعة من 18 صينية حوسبة ، حيث تحتوي كل صينية حوسبة على 4 وحدات GPU من نوع Blackwell Ultra و 2 وحدات معالج Grace CPU ، وبالتالي المجموع الكلي هو 72 وحدة GPU من نوع Blackwell Ultra و 36 وحدة معالج Grace CPU ، مع ذاكرة وصول عشوائي بسعة تصل إلى 20 تيرابايت وعرض نطاق إجمالي يبلغ 576 تيرابت في الثانية، بالإضافة إلى 9 صينيات تبديل NVLink (18 رقاقة تبديل NVLink)، وعرض نطاق NVLink بين العقد 130 تيرابت في الثانية.
تحتوي حاوية الخادم على 72 بطاقة شبكة CX-8 ، توفر عرض نطاق ترددي يبلغ 14.4TB / s ، بينما تساعد بطاقة Quantum-X800 InfiniBand وبطاقة Spectrum-X 800G Ethernet في تقليل التأخير والاهتزاز ، مما يدعم تجمعات AI كبيرة الحجم. بالإضافة إلى ذلك ، تم دمج 18 بطاقة BlueField-3 DPU لتعزيز الشبكة متعددة المشغلين والأمان وتسريع البيانات في الرف.
قالت إنفيديا إن هذا المنتج مصمم خصيصًا لعصر الذكاء الاصطناعي، وتشمل السيناريوهات التطبيقية الذكاء الاصطناعي الاستدلالي، والعميل، والذكاء الاصطناعي الفيزيائي والبيانات الاصطناعية لتدريب الروبوتات والقيادة الذكية (، وقد زاد أداء الذكاء الاصطناعي بنسبة 1.5 مرة مقارنة بالجيل السابق من المنتجات GB200 NVL72، وبالمقارنة مع منتجات خزانات DGX التي تستهدف نفس المكانة المعمارية هوبر، يمكن أن يوفر لمراكز البيانات فرصة لزيادة الإيرادات بنسبة 50 مرة.
وفقًا للمعلومات المقدمة من قبل الجهة الرسمية، يمكن لعملية استنتاج معلمات DeepSeek-R1 بقيمة 6710 مليار أن تحقق 100 رمز في الثانية بناءً على منتج H100، بينما يمكن للاستراتيجية Blackwell Ultra NVL72 تحقيق 1000 رمز في الثانية.
عند تحويلها إلى وقت ، يحتاج H100 لتشغيل 1.5 دقيقة لنفس مهمة التفكير ، بينما يمكن لـ Blackwell Ultra NVL72 أن ينتهي في 15 ثانية.
مواصفات الأجهزة Blackwell Ultra NVL72 و GB200 NVL72
وفقًا للمعلومات المقدمة من قبل إنفيديا، من المتوقع أن يتم طرح منتج Blackwell NVL72 ذي الصلة في النصف الثاني من عام 2025، ويتضمن العملاء مصنعو الخوادم وشركات السحابة ومقدمو خدمات تأجير القوة الحسابية بعدة فئات كبيرة.
الشركة المصنعة للخادم
سيسكو/ديل/إتش بي/لينوفو/سوبر مي وغيرها من مصنعي الـ 15
مصنع سحابي
AWS/Google Cloud/Azure/Oracleالخدمات السحابية الرئيسية ومنصات أخرى
مزود خدمات تأجير الطاقة الحسابية
كور ويف / لامدا / يوتا ، إلخ *
) 3)إعلان مسبق عن شريحة GPU Rubin الحقيقية "قنبلة نووية"
وفقًا لخريطة طريق إنفيديا ، فإن GTC2025 ستكون في Blackwell Ultra.
ومع ذلك، لم يكن هوانغ رينكسون أيضًا قد قام بالكشف عن الجيل القادم من وحدة GPU القائمة على بنية Rubin التي ستدرج في عام 2026، بالإضافة إلى كابينة Vera Rubin NVL144 الأقوى - 72 كور CPU Vera + 144 كور GPU Rubin، مزودة بذاكرة HBM4 بسعة 288 جيجابايت، وعرض نطاق للذاكرة 13 تيرابايت في الثانية، بالإضافة إلى الجيل السادس من NVLink وبطاقة الشبكة CX9.
مدى قوة هذا المنتج؟ قوة الحساب التكميلي FP4 تصل إلى 3.6ExaFLOPS، وقوة التدريب بدقة FP8 تصل أيضًا إلى 1.2ExaFlOPS، والأداء هو ثلاثة أضعاف لـ Blackwell Ultra NVL72.
إذا كنت تشعر أنك لا تزال لا تكفي، فلا مشكلة، في عام 2027 يوجد خزانة Rubin Ultra NVL576 أقوى بكثير، حيث تبلغ دقة FP4 للاستدلال و FP8 لقوة التدريب 15ExaFLOPS و 5ExaFLOPS على التوالي، وهي 14 مرة أعلى من Blackwell Ultra NVL72.
معلمات Rubin Ultra NVL144 و Rubin Ultra NVL576 المقدمة من NVIDIA الرسمية
) 4)منتج Blackwell Ultra DGX Super POD 'مصنع الحوسبة الفائقة'
بالنسبة لأولئك الذين لا يمكن أن تلبي Blackwell Ultra NVL72 الاحتياجات في الوقت الحالي ولا يحتاجون إلى بناء مجموعة كبيرة جدًا من تجميع الذكاء الاصطناعي، فإن الحلول التي تقدمها إنفيديا تعتمد على Blackwell Ultra وهي مصنع DGX Super POD AI للذكاء الاصطناعي القابل للتوصيل والاستخدام.
باعتبارها مصنعًا لأجهزة الكمبيوتر الفائقة للذكاء الاصطناعي القابلة للتوصيل والاستخدام، يستهدف DGX Super POD بشكل رئيسي سيناريوهات الذكاء الاصطناعي التي تستند إلى الإنشاء، ووكلاء الذكاء الاصطناعي، والمحاكاة الفيزيائية وما إلى ذلك، مما يغطي الحاجة إلى قدرات الحساب من مرحلة المدربين المسبقين وحتى بيئة الإنتاج، Equinix كشركة خدمات رائدة تقدم الدعم للبنية التحتية السائلة/الهوائية.
تم تقسيم DGX Super POD المعتمد على Blackwell Ultra إلى نسختين:
DGX SuperPOD المزودة بمعالج Grace CPU ×1 + Blackwell Ultra GPU ×2 GB300 DGX المدمجة، بإجمالي 288 من وحدات Grace CPU و 576 وحدة Blackwell Ultra GPU، مع 300 تيرابايت من الذاكرة السريعة، وأداء يصل إلى 11.5ExaFLOPS بدقة FP4
DGX SuperPOD المدمج مع DGX B300، هذا الإصدار لا يحتوي على رقاقة Grace CPU ، ولديه مساحة توسع إضافية، ويعتمد على نظام تبريد بالهواء، والتطبيق الرئيسي هو مركز بيانات المؤسسات العادية
) 5) DGX سبارك ومحطة DGX
في يناير ###، كشفت إنفيديا عن منتج AI PC الاستشاري المسعور بسعر 3000 دولار في CES - Project DIGITS، والآن لديها اسم رسمي DGX Spark.
من ناحية المعلمات المنتج، يأتي مزودًا برقاقة GB10، يمكن لقوة الحساب تحت FP4 دقة الوصول إلى 1PetaFlops، مع 128 جيجابايت من ذاكرة LPDDR5X، بالإضافة إلى بطاقة شبكة CX-7، وتخزين NVMe بسعة 4 تيرابايت، يعمل بنظام تشغيل DGX OS المبني على Linux، ويدعم الإطارات مثل Pytorch، بالإضافة إلى تثبيت بعض أدوات تطوير البرمجيات الأساسية للذكاء الاصطناعي التي تقدمها NVIDIA، ويمكن تشغيل نماذج تحتوي على 2000 مليار معلمة. يقترب حجم الجهاز بأكمله من حجم Mac mini، يمكن لجهازي DGX Spark التفاعل، ويمكن أيضًا تشغيل نماذج تحتوي على أكثر من 4000 مليار معلمة.
على الرغم من أننا نقول إنها كمبيوتر شخصي ذكاء اصطناعي، إلا أنها في الأساس تنتمي لفئة الحوسبة فائقة، لذا تم وضعها في سلسلة منتجات DGX بدلاً من المنتجات على مستوى الاستهلاك مثل RTX.
ومع ذلك، هناك أيضًا أشخاص يشكون من هذا المنتج، حيث يكون أداء FP4 الإعلاني ذو دقة منخفضة، حيث يمكن مقارنته بـ RTX 5070 عند تحويله إلى دقة FP16، أو حتى بـ Arc B580 بتكلفة 250 دولارًا، مما يجعله ذو قيمة منخفضة للغاية.
بالإضافة إلى DGX Spark الذي يحمل اسمه الرسمي، قدمت NVIDIA أيضًا محطة عمل AI مبنية على Blackwell Ultra، تحتوي هذه المحطة على معالج Grace ومعالج Blackwell Ultra، مع ذاكرة موحدة بسعة 784 جيجابايت وبطاقة شبكة CX-8، توفر 20 بيتافلوب من قوة الذكاء الاصطناعي (غير محددة رسميًا، ولكنها في النظرية دقة FP4 أيضًا).
6)RTX تجتاح أجهزة الكمبيوتر الذكية بالذكاء الاصطناعي، وتسعى أيضًا لدخول مراكز البيانات
المنتجات SKU المستندة إلى Grace CPU و Blackwell Ultra GPU التي تم تقديمها في السابق هي منتجات للشركات، ونظرًا لاهتمام الكثير من الناس بالاستخدامات الرائعة لمنتجات مثل RTX 4090 في التفكير الذكي، فقد قوَّى نفيديا تكامل سلسلة Blackwell و RTX في مؤتمر GTC هذا، وقدم مجموعة كبيرة من وحدات معالجة الرسومات المرتبطة بأجهزة الكمبيوتر الذكية للذكاء الاصطناعي مع ذاكرة داخلية من نوع GDDR7، تغطي الحواسيب المحمولة وأجهزة الكمبيوتر المكتبية وحتى مراكز البيانات.
GPU المكتبية:، بما في ذلك إصدارات RTX PRO 6000 Blackwell للمحطات العمل، وإصدارات RTX PRO 6000 Blackwell Max-Q للمحطات العمل، وإصدارات RTX PRO 5000 Blackwell، وإصدارات RTX PRO 4500 Blackwell، وإصدارات RTX PRO 4000 Blackwell
وحدات معالجة الرسومات للكمبيوتر المحمول: RTX Pro 5000 Blackwell و RTX PRO 4000 Blackwell و RTX و PRO 3000 Blackwell و RTX PRO 2000 Blackwell و RTX PRO 1000 Blackwell و RTX PRO 500 Blackwell *
مركز بيانات GPU: NVIDIA RTX PRO 6000 إصدار خادم Blackwell
مجموعة AI "كل في واحد" من نفيديا الخاصة بالحوسبة الشركاتية
ما ذكر أعلاه هو فقط جزء من SKU المخصصة لمختلف السيناريوهات بناءً على رقاقة Blackwell Ultra ، من أجهزة العمل إلى عملاق مراكز البيانات ، وتعتبر NVIDIA نفسها "عائلة Blackwell" (عائلة Blackwell) ، وبالصينية تُترجم إلى "Blackwell الكامل".
نفيديا فوتونيكس: نظام CPO الذي يقف على كتفي الزملاء
مفهوم وحدة التعبئة المشتركة للكهروضوئية (CPO)، ببساطة، هو تغليف رقاقة التبديل ووحدة الضوء البصري معًا، يمكن تحقيق تحويل إشارة الضوء إلى إشارة كهربائية، واستغلال أداء نقل الضوء بشكل كامل.
قبل ذلك، كانت الصناعة تناقش دائمًا منتجات مفاتيح تبادل الشبكة CPO الخاصة بشركة إنفيديا، ولكنها لم تكن متاحة حتى الآن، وقدم هوانغ رينشون شرحًا في الموقع - نظرًا لاستخدام كميات كبيرة من الألياف البصرية في مراكز البيانات، فإن استهلاك الطاقة لشبكات الاتصال البصرية يعادل 10٪ من موارد الحساب، وتكلفة الاتصال البصري تؤثر مباشرة على شبكة Scale-Out للعقد الحسابية وكثافة أداء الذكاء الاصطناعي.
المعلمات Quantum-X، Spectrum-X لشرائح السيليكون المشتركة المعروضة على GTC
قامت شركة NVIDIA هذا العام بإطلاق شريحة Quantum-X Silicon Photonics وشريحة Spectrum-X Silicon Photonics بالإضافة إلى ثلاث منتجات تبديل مشتقة: Quantum 3450-LD، وSpectrum SN6810، وSpectrum SN6800.
كوانتوم 3450-LD: 144 منفذًا بسرعة 800 جيجابت في الثانية، عرض النطاق الترددي للوحة الخلفية 115 تيرابايت في الثانية، تبريد سائل
*Spectrum SN6810: 128 منفذًا بسرعة 800 جيجابايت في الثانية ، عرض النطاق الترددي للوحة الخلفية 102.4 تيرابايت في الثانية ، تبريد سائل *
Spectrum SN6800: 512 منفذًا بسرعة 800 جيجابايت/ثانية ، عرض النطاق الخلفي 409.6 تيرابايت/ثانية ، تبريد سائل
يتم تصنيف المنتجات المذكورة أعلاه بشكل موحد تحت "NVIDIA Photonics"، وقالت NVIDIA إن هذه منصة تطوير مشتركة تعتمد على شراكة CPO للنظام البيئي، على سبيل المثال، فإن معدل الحلقة الدقيقة (MRM) الذي تحمله مبني على محرك الضوء الخاص بشركة TSMC محسن لدعم التحكم بالليزر عالي الطاقة والكفاءة العالية، ويستخدم موصلات ألياف بصرية قابلة للإزالة.
مثير للاهتمام أن وفقًا للمعلومات السابقة في الصناعة، فإن معدل النظام الكهرومغناطيسي (MRM) لشركة TSMC هو نتاج تعاونها مع Broadcom على أساس تقنية العمل الحديثة بحجم 3 نانومتر وتقنيات التغليف المتقدمة مثل CoWoS.
وفقًا للبيانات المقدمة من إنفيديا ، يُعزز جهاز التبديل الفوتوني المتكامل الأداء بنسبة 3.5 مرات مقارنة بالمفاتيح التقليدية ، ويمكن رفع كفاءة النشر بنسبة 1.3 مرة ، بالإضافة إلى مرونة التوسع بأكثر من 10 مرات.
كفاءة النموذج PK DeepSeek: البيئة البرمجية تعزز وكيل الذكاء الاصطناعي
في الموقع، وصف هوانغ رينشون الـ AI infra بـ "التورتة الكبيرة"
خلال نهضة ###، تحدث هوانغ رينجون فقط لمدة حوالي نصف ساعة حول البرمجيات والذكاء الاصطناعي. لذلك، كثير من التفاصيل تم استكمالها من خلال الوثائق الرسمية، وليس كلها من الموقع مباشرة.
( 1)Nvidia Dynamo، إنفيديا بناء CUDA جديد في مجال الاستدلال
Nvidia Dynamo هو بالتأكيد قنبلة برمجيات تم إطلاقها في هذا الحدث.
إنه برنامج مفتوح المصدر مصمم خصيصًا لتسريع عمليات الاستدلال والتدريب وتسريع جميع تطبيقات البيانات عبر مركز البيانات بأكمله. تعتبر بيانات أداء Dynamo مثيرة للدهشة: باستخدام الهندسة المعمارية Hopper الحالية، يمكن لـ Dynamo مضاعفة أداء النموذج القياسي Llama. وبالنسبة لنماذج الاستدلال المتخصصة مثل DeepSeek، تحسين الاستدلال الذكي لـ NVIDIA Dynamo قادر أيضًا على زيادة عدد الرموز التي يولدها كل وحدة معالجة الرسوميات بأكثر من 30 مرة.
قام Huang Renxun بتقديم عرض توضيحي لـ Blackwell الذي يحتوي على Dynamo ، ويمكن أن يتجاوز Hopper بأكثر من 25 مرة
استفادت تحسينات Dynamo هذه بشكل رئيسي من التوزيع. إنه يوزع مراحل الحساب المختلفة لـ LLM (فهم استعلام المستخدم وإنشاء الاستجابة الأفضل) على GPU مختلفة ، مما يتيح تحسين كل مرحلة بشكل مستقل ، وزيادة الإنتاجية وتسريع سرعة الاستجابة.
على سبيل المثال، أثناء مرحلة معالجة المدخلات، وهي مرحلة ما قبل التعبئة، يكون Dynamo قادرا على تخصيص موارد وحدة معالجة الرسومات بكفاءة لمعالجة مدخلات المستخدم. سيستخدم النظام مجموعات متعددة من وحدات معالجة الرسومات لمعالجة استفسارات المستخدم بالتوازي ، على أمل أن تكون معالجة GPU أكثر توزيعا وأسرع. يستخدم Dynamo وضع FP4 لاستدعاء وحدات معالجة رسومات متعددة "لقراءة" و "فهم" مشكلة المستخدم بالتوازي في نفس الوقت ، حيث تتعامل مجموعة واحدة مع المعرفة الأساسية للحرب العالمية الثانية ، ومجموعة أخرى تتعامل مع المواد التاريخية المتعلقة ب "الأسباب" ، ومجموعة ثالثة تتعامل مع الجدول الزمني "المنقضي" والأحداث.
في إنشاء الرموز المميزة للإخراج ، أي في مرحلة فك التشفير ، يجب أن تكون وحدة معالجة الرسومات أكثر تركيزا وتماسكا. مقارنة بعدد وحدات معالجة الرسومات ، تتطلب هذه المرحلة مزيدا من النطاق الترددي لاستيعاب معلومات التفكير في المرحلة السابقة ، لذلك تتطلب أيضا المزيد من قراءات ذاكرة التخزين المؤقت. يعمل Dynamo على تحسين الاتصالات بين وحدات معالجة الرسومات وتخصيص الموارد لضمان توليد استجابة متسقة وفعالة. من ناحية ، فإنه يستفيد بشكل كامل من قدرة اتصال NVLink ذات النطاق الترددي العالي لبنية NVL72 لزيادة كفاءة توليد الرمز المميز. من ناحية أخرى ، يوجه "Smart Router" الطلبات إلى وحدة معالجة الرسومات التي قامت بتخزين ) قيمة مفتاح KV( ذات الصلة مؤقتا ، مما يتجنب الحساب المزدوج ويحسن سرعة المعالجة بشكل كبير. من خلال تجنب الحساب المزدوج، يتم تحرير بعض موارد وحدة معالجة الرسومات، ويمكن ل Dynamo تخصيص هذه الموارد الخاملة ديناميكيا للطلبات الواردة الجديدة.
هذا النظام الهيكلي وهيكل Mooncake الخاص بـ Kimi متشابهان إلى حد كبير، ولكن NVIDIA قامت بدعم أكثر على مستوى البنية التحتية. من المحتمل أن يزيد Mooncake بنسبة تقريبية 5 مرات، ولكن التحسين الأكبر في Dynamo يظهر بشكل أوضح في التحليل.
على سبيل المثال، من بين الابتكارات الرئيسية في Dynamo، يقوم "مخطط وحدة معالجة الرسومات" بضبط تخصيص وحدة معالجة الرسومات ديناميكيا بناء على الحمل، وتعمل "مكتبة الاتصالات ذات زمن الانتقال المنخفض" على تحسين نقل البيانات بين وحدات معالجة الرسومات، وينقل "مدير الذاكرة" بذكاء بيانات الاستدلال بين أجهزة التخزين بمستويات تكلفة مختلفة، مما يقلل من تكاليف التشغيل بشكل أكبر. يوجه جهاز التوجيه الذكي ، وهو نظام توجيه مدرك ل LLM ، الطلبات إلى وحدة معالجة الرسومات الأكثر ملاءمة لتقليل العد المزدوج. تعمل كل هذه الإمكانات على تحسين الحمل على وحدة معالجة الرسومات.
يمكن توسيع نظام الاستدلال هذا بكفاءة إلى مجموعة كبيرة من وحدات المعالجة الرسومية، مما يمكن جعل الاستعلام الذكي الفردي يمتد بسلاسة إلى ما يصل إلى 1000 وحدة معالجة رسومية للاستفادة الكاملة من موارد المراكز البيانات.
بالنسبة لمشغلي GPU، جعل هذا التحسين تكلفة كل مليون رمز تنخفض بشكل كبير، مع زيادة كبيرة في القدرة الإنتاجية. في الوقت نفسه، يحصل كل مستخدم على المزيد من الرموز في الثانية، مع استجابة أسرع، وتحسين تجربة المستخدم.
من خلال Dynamo، يمكن للخادم تحقيق الحد الأدنى من الاستجابة وسرعة الاستجابة
على عكس CUDA كأساس أساسي لبرمجة وحدة معالجة الرسومات (GPU) ، فإن Dynamo هو نظام على مستوى أعلى يركز على تخصيص وإدارة الحمل الذكي للاستدلال بمقياس كبير. إنه مسؤول عن طبقة جدولة الاستدلال الموزعة المحسنة ، الموجودة بين تطبيق البرنامج والبنية الأساسية للحسابات. ولكن تمامًا مثلما غيرت CUDA تمامًا مشهد الحوسبة الجرافيكية قبل أكثر من عقد من الزمان ، فإن Dynamo قد ينجح أيضًا في إيجاد نموذج جديد لكفاءة برمجيات وأجهزة الاستدلال.
Dynamo هو مفتوح بالكامل ويدعم جميع الأطر الرئيسية من PyTorch إلى Tensor RT. بمثل هذا الانفتاح ، لا يزال لديه حاجز وقائي. مثل CUDA ، فهو فعال فقط على GPU الخاصة بـ NVIDIA ، وهو جزء من تراكم برامج AI للحوسبة من NVIDIA.
من خلال ترقية هذا البرنامج، قامت NVIDIA ببناء دفاعها الخاص ضد شركات مثل Groq التي تقدم شرائح ASIC خاصة بالاستدلال. يجب تنسيق البرنامج مع الأجهزة بشكل جيد لقيادة البنية التحتية للتفكير.
( 2)عرض نموذج Llama Nemotron الجديد كفاءة عالية، ولكنه لا يزال لا يمكنه التغلب على DeepSeek
على الرغم من أن Dynamo مدهش بالفعل من حيث استخدام الخادم، إلا أن NVIDIA لا تزال تعاني قليلاً في تدريب النماذج مقارنة بالخبراء الحقيقيين.
تستخدم Nvidia نموذجا جديدا Llama Nemotron في GTC هذا ، والذي يركز على الكفاءة والدقة. مشتق من سلسلة نماذج اللاما. بعد الضبط الدقيق الخاص بواسطة NVIDIA ، مقارنة بجسم اللاما ، تم تحسين هذا النموذج من خلال تقليم الخوارزمية وتحسينها ، وهو أخف وزنا ، 48B فقط. كما أن لديها قدرات منطقية تشبه O1. مثل Claude 3.7 و Grok 3 ، يحتوي طراز Llama Nemotron على مفتاح استدلال مدمج ، والذي يمكن للمستخدم اختيار تشغيله أو إيقاف تشغيله. تنقسم السلسلة إلى ثلاث مستويات: Nano للمبتدئين ، و Super متوسط المدى ، و Ultra الرائد ، كل منها مصمم للشركات من جميع الأحجام.
عند الحديث عن الكفاءة، فإن مجموعة بيانات التدريب الدقيقة لهذا النموذج تتألف تمامًا من بيانات تركيبية تم إنشاؤها بواسطة NVIDIA نفسها، بإجمالي حوالي 60B token. بالمقارنة مع التدريب الكامل الذي استغرق 130 ساعة من H100 لـ DeepSeek V3، فإن هذا النموذج الذي يحتوي على 1/15 من عدد المعلمات في DeepSeek V3 فقط استخدم 36 ألف ساعة من H100 للتحسين فقط. كفاءة التدريب تكون أقل بدرجة واحدة مقارنة بـ DeepSeek.
من الناحية الفعالية في التحقق، يُظهر نموذج Llama Nemotron Super 49B أداءً أفضل بكثير من الجيل السابق بالفعل، حيث يمكن أن تصل قدرة تمرير الرمز الخاصة به إلى 5 مرات من Llama 3 70B، وتحت GPU في مركز بيانات واحد يمكن لها أن تمرر أكثر من 3000 رمز في الثانية. ومع ذلك، في البيانات التي نُشرت في اليوم الأخير من Open Day الخاص بـ DeepSeek، كانت قدرة التمرير الوسيطية لكل عقد H800 حوالي 73.7 ألف رمز/ثانية أثناء فترة التحميل المسبق (بما في ذلك ضربات الذاكرة المؤقتة) أو حوالي 14.8 ألف رمز/ثانية أثناء الفك. الفرق بينهما لا يزال واضحًا.
من الناحية الأداء، تتفوق Llama Nemotron Super بسعة 49B في جميع المؤشرات على نموذج Llama 70B الذي تم تقطيره بواسطة DeepSeek R1. ومع ذلك، نظرًا للنماذج الصغيرة عالية الأداء مثل Qwen QwQ بسعة 32B التي تم إصدارها بشكل متكرر مؤخرًا، يُقدر أن يكون Llama Nemotron Super صعبًا في التألق بين هذه النماذج التي يمكنها منافسة R1 بنفسه.
أكثر شيء مهم هو أن هذا النموذج يثبت حقيقة أن DeepSeek قد يكون أكثر فهمًا لضبط وحدة معالجة الرسوميات خلال عملية التدريب من إنفيديا.
( 3)النموذج الجديد هو مجرد المقبلات على بيئة الوكيل الذكي لـ NVIDIA AI، AIQ هو الطبق الرئيسي
لماذا تطور إنفيديا نموذج استدلال؟ هذا يعود في الأساس إلى الإعداد لما يعتبره السيد الأصفر النقطة المفتاحية التالية للذكاء الاصطناعي - وكيل الذكاء الاصطناعي. منذ إنشاء شركات كبيرة مثل OpenAI و Claude تدريجيًا أسسًا للوكيل من خلال DeepReasearch و MCP، يبدو أن إنفيديا يعتقد أيضًا بشكل واضح أن عصر الوكلاء قد حان.
مشروع NVIDA AIQ هو محاولة من NVIDIA مباشرة. إنه يوفر مساقًا جاهزًا لوكيل AI لمخطط يعتمد على نموذج الاستدلال Llama Nemotron كنواة. ينتمي هذا المشروع إلى مستوى Blueprint (المخطط) لـ NVIDIA، وهو يشير إلى مجموعة من سير العمل المرجعية المعدة مسبقًا، وهو قالب لمساعدة المطورين على دمج تقنيات ومكتبات NVIDIA بشكل أسهل. ويعد AIQ قالب وكيل يقدمه NVIDIA.
مثل Manus، فإنه يدمج محركات البحث عبر الإنترنت وأدوات AI المهنية الأخرى مثل الوكالة الخارجية، مما يتيح للوكالة نفسها أن تبحث وتستخدم مجموعة متنوعة من الأدوات. من خلال تخطيط نموذج الترتيب Llama Nemotron، يتم التفكير بشكل معمق وتحسين خطط المعالجة لإكمال مهام المستخدم. بالإضافة إلى ذلك، فإنه يدعم أيضًا بنية تدفق العمل لعدة وكالات.
نظام servicenow الذي تم إنشاؤه بناءً على هذا القالب
ما هو أكثر تقدما من Manus هو أنه يحتوي على نظام RAG معقد موجه لملفات الشركات. يتضمن هذا النظام سلسلة من الخطوات بما في ذلك الاستخراج والتضمين وتخزين الناقلات وإعادة ترتيبها في النهاية من خلال معالجة LLM، مما يضمن أن تكون بيانات الشركة متاحة للوكيل.
وبالإضافة إلى ذلك، قدمت Nvidia منصة بيانات AI، تقوم بتوصيل نماذج الاستدلال AI بأنظمة بيانات الشركات، وتشكل DeepReasearch مخصصة لبيانات الشركات. هذا الأمر يدفع تقدمًا كبيرًا في تكنولوجيا التخزين، حيث يجعل النظام التخزيني ليس مجرد مستودع للبيانات بل منصة ذكية تتمتع بقدرة استدلال وتحليل نشطة.
وتشدد AIQ بشكل كبير على آليات الرصد والشفافية. هذا مهم للغاية بالنسبة للأمان والتحسينات اللاحقة. يمكن لفريق التطوير مراقبة نشاط الوكيل في الوقت الفعلي وتحسين النظام بشكل مستمر بناءً على البيانات الأدائية.
بصفة عامة ، يعتبر NVIDA AIQ قالب عمل وكيل قياسيًا ، ويوفر مجموعة متنوعة من قدرات الوكيل. إنه نوع من برامج بناء الوكيل Dify الأكثر ذكاءً التي تتطور إلى عصر التفكير.
تم إصدار نموذج أساسي لروبوتات البشرية. تريد إنفيديا إنشاء بيئة مادية مغلقة بالكامل.
( 1)Cosmos، تمكين الذكاء الاصطناعي من فهم العالم
إذا كان التركيز على Agent أو الرهان على الحاضر، فإن NVIDIA في مجال الذكاء الاصطناعي يمكن اعتبارها بالكامل جزءًا من تكامل المستقبل.
نفذت نفذت النموذج والبيانات والقوة الحسابية الثلاثة عناصر من نفذت نفذت.
يبدأ الحديث عن نموذج أولي، حيث تم إصدار النسخة المحدثة من نموذج Cosmos للذكاء الاصطناعي الجسدي الذي تم الإعلان عنه في يناير من هذا العام خلال GTC.
كوسموس هو نموذج يمكنه توقع الصور المستقبلية من خلال الصور الحالية. يمكنه أن يأخذ البيانات من النص/الصور وينشئ فيديو مفصل، ويستخدم حالته الحالية (صورة/فيديو) مع الحركات (تلميحات/إشارات تحكم) لتوقع تطور المشهد. نظرًا لأن هذا يتطلب فهمًا لقوانين السببية الفيزيائية في العالم، يطلق عليه نفيديا اسم نموذج الأساس العالمي (WFM).
بالنسبة للذكاء الجسدي ، فإن قدرة توقع سلوك الآلة وتأثيرها على العالم الخارجي هي القدرة الأساسية. فقط من خلال ذلك ، يمكن للنموذج أن يخطط للسلوك بناءً على التوقعات ، لذا يصبح نموذج العالم أساسًا للذكاء الجسدي. بفضل هذا النموذج الأساسي للتنبؤ بتغيير العالم الفيزيائي / الزمني للسلوك ، يمكن لهذا النموذج بالتحديد تلبية متطلبات تطبيق الذكاء الجسدي ذو الشكل الفيزيائي المختلفة من خلال ضبط بيانات مجموعة البيانات لقيادة السيارات التلقائية ومهام الروبوت.
يتضمن النموذج بالكامل ثلاثة قدرات، الجزء الأول Cosmos Transfer يحول إدخال النصوص المهيكلة لمقاطع الفيديو إلى إخراج فيديو واقعي قابل للتحكم، وينتج بيانات توليدية على نطاق واسع عن طريق النصوص. يحل هذا المشكلة الرئيسية للذكاء الواقعي الحالي - مشكلة نقص البيانات. وهذا الإنتاج هو نوع من الإنتاج "القابل للتحكم"، وهذا يعني أن المستخدم يمكنه تحديد معلمات محددة (مثل ظروف الطقس، وخصائص الكائنات، إلخ)، وسيقوم النموذج بضبط النتائج المولدة بشكل مناسب، مما يجعل عملية توليد البيانات أكثر قابلية للتحكم وتوجيهًا. يمكن أيضًا دمج العملية بالكامل بين Ominiverse وCosmos.
يمكن لجزء Cosmos Predict الثاني توليد حالة العالم الافتراضي من مدخلات متعددة الأوضاع، ودعم توليد العديد من الإطارات وتوقع مسارات الحركة. هذا يعني أنه، بتوفير الحالة الابتدائية والنهائية، يمكن للنموذج توليد عملية وسيطة معقولة. هذه هي قدرة بناء وإدراك العالم الفيزيائي الأساسية.
الجزء الثالث هو Cosmos Reason ، وهو نموذج مفتوح وقابل للتخصيص بالكامل ، يتمتع بقدرة على إدراك الزمان والمكان ، وفهم بيانات الفيديو من خلال التفكير السلسلي وتوقع نتائج التفاعل. هذه هي القدرة على تعزيز التخطيط السلوكي وتوقع نتائج السلوك.
مع تراكم هذه القدرات الثلاثة، يمكن لـ Cosmos أن تحقق سلسلة كاملة من السلوك من إدخال رمز الصورة الواقعية + تلميحات الأوامر النصية إلى إخراج رمز الإجراءات الآلية.
يجب أن يكون هذا النموذج الأساسي فعالًا بالفعل. بعد شهرين فقط من إطلاقه، بدأت شركات رائدة مثل 1X وAgility Robotics وFigure AI في استخدامه. ليس لدى النموذج اللغوي الكبير الريادة، لكن نفيديا في مجال الذكاء الاصطناعي يقع فعليًا ضمن الفئة الأولى.
( 2)إسحاق GR00T N1، النموذج الأساسي الأول في العالم لروبوت بشري
مع كوسموس، قامت إنفيديا بضبط إطار العمل هذا بشكل طبيعي لتدريب نموذج الأساسي Isaac GR00T N1 المخصص للروبوتات البشرية.
تعتمد هيكلية النظام المزدوج، مع “النظام 1” الذي يستجيب بسرعة و“النظام 2” الذي يقوم بالتفكير العميق. وبفضل ضبطها الشامل، يمكنها التعامل مع المهام العامة مثل الالتقاط والتنقل والتحكم بالذراعين بسرعة. بالإضافة إلى ذلك، يمكن تخصيصها تمامًا للروبوتات الفردية، حيث يمكن لمطوري الروبوتات استخدام بيانات حقيقية أو مصنعة للتدريب اللاحق. وهذا يعني أن هذا النموذج يمكن أن يتم نشره في مجموعة متنوعة من الروبوتات ذات الأشكال المختلفة في الواقع.
على سبيل المثال، تعاونت NVIDIA مع Google DeepMind و Disney لتطوير محرك الفيزياء Newton، واستخدمت Isaac GR00T N1 كقاعدة لتشغيل روبوت BDX صغير غير شائع جدًا. يظهر ذلك قوة استخدامه العامة. يعتبر Newton محرك الفيزياء حساسًا للغاية، وبالتالي يكفي لإنشاء نظام مكافآت فيزيائي لتدريب الكائنات الذكية في البيئة الافتراضية.
جمعت NVIDIA Omniverse و NVIDIA Cosmos Transfer معًا لتطوير نموذج العالم الأساسي عالمي، Isaac GR00T Blueprint. يمكنه توليد كمية كبيرة من بجهود بشرية قليلة لبيانات الحركة التخيلية، واستخدامها في تدريب الروبوتات. استخدمت NVIDIA أجزاء Blueprint الأولية لإنشاء 780,000 مسار تخيلي في 11 ساعة فقط، ما يعادل بيانات عرضية على مدار 6,500 ساعة (حوالي 9 أشهر). يأتي جزء كبير من بيانات Isaac GR00T N1 من هذه البيانات، حيث زاد أداء GR00T N1 بنسبة 40% مقارنة بالاعتماد فقط على البيانات الحقيقية.
بالنسبة لكل نموذج، يمكن لإنفيديا توفير كميات كبيرة من البيانات عالية الجودة باستخدام هذه النظام الافتراضي النقي ونظام إنشاء الصور العالمي الحقيقي هذا. إن إنفيديا تغطي الجانب الثاني لهذا النموذج أيضًا.
( 3)نظام قوة الحساب الثلاثي الأبعاد، لبناء إمبراطورية الحساب الآلي من التدريب إلى الطرف
بدأ السيد هوانغ من العام الماضي في التركيز على مفهوم "ثلاث حواسيب" على GTC: أولها هو DGX، وهو خادم يحتوي على معالج رسوميات كبير، يُستخدم لتدريب الذكاء الاصطناعي، بما في ذلك الذكاء البشري. الثاني AGX، هو منصة حوسبة مدمجة صممتها NVIDIA للحوسبة الحافة والأنظمة الذاتية، يتم استخدامها لنشر الذكاء الاصطناعي بشكل محدد على الطرفية، مثل كونها شريحة أساسية للقيادة الآلية أو الروبوتات. الثالث هو كمبيوتر توليد بيانات Omniverse+Cosmos.
تمت إعادة إحياء هذا النظام مرة أخرى من قبل لاو هوانغ في GTC هذه المرة ، وأشير بشكل خاص إلى أن هذا النظام الحاسوبي يمكن أن يولد مليار روبوت. من التدريب إلى النشر ، يُستخدم إنفيديا للقوة الحسابية. هذا الجزء أيضًا تم إغلاقه.
الختام
إذا ما قارنا ببساطة بين شريحة Blackwell الجيل السابقة، فإن Blackwell Ultra لا تتطابق فعلياً مع تلك الصفات مثل "قنبلة نووية" أو "ملك الضربات" من الناحية الأجهزة، حتى بل ربما تحمل بعض رائحة ضغط الأسنان.
ولكن إذا نظرنا إلى التخطيط الخريطي، فإن هذه العوامل جميعها تقع ضمن تصميم هوانغ رينشون، وستشهد هناك زيادة كبيرة في معمارية روبين للعامين القادمين من حيث تقنية الشرائح والترانزستورات ودمج الأنظمة في الأرفف وتوصيلات وحدات معالجة الرسومات ووحدات الخزانات، بما يتفق مع المقولة الصينية التقليدية "الأفضل لم يأت بعد".
مقارنة بين تحقيق جوع الرسم البياني على مستوى الأجهزة ، يمكن القول إن NVIDIA كانت تتقدم بسرعة على مستوى البرمجيات خلال السنتين الماضيتين.
نظرًا لنظرة شاملة على البيئة البرمجية الكاملة لـ NVIDIA ، فإن خدمات الطبقة الثلاثة MENO و NIM و BLUEPRINT تتضمن الأمثلة وتغليف النماذج في حلول الشبكة الكاملة لبناء التطبيقات. يتم تضمين بيئة شركة الخدمات السحابية بالكامل في NVIDIA AI. بالإضافة إلى العامل الجديد وهو الوكيل الذي تم إضافته هذه المرة ، فإن NVIDIA تتطلع إلى استيعاب الجانب الكامل لبيئة AI Infra.
هذا الجزء من البرنامج، شهية السيد لاو ليس أقل من سعر سهم شركة إنفيديا.
وفي سوق الروبوتات، تكبير نفوذ نفيديا أكبر. النماذج، البيانات، وحدة الحساب الثلاثة عوامل تمسك بها بيد من حديد. لم ينجح في الانضمام إلى كرسي الرئاسة لنموذج اللغة الأساسي، وبذلك يكمل الذكاء الصناعي الأساسي. بوضوح، بدأ عملاق الاحتكار إصدار النسخة الذكية القائمة على الذكاء الصناعي في الظهور على الأفق.
في هذا السياق، كل جزء، كل منتج يناسب سوق تبلغ قيمتها المحتملة الكبيرة بمليارات الدولارات. كان حظ جيد قديم يلعب دورًا، حيث بدأ الملياردير هوانغ رينشون، الذي اعتمد على الأرباح من هيمنته على سوق وحدات المعالجة الرسومية، في لعبة قمار أكبر.
إذا كانت البرمجيات أو سوق الروبوتات تسيطر على أي جانب في هذه اللعبة ، فإن Nvidia هي Google في عصر الذكاء الاصطناعي ، وهي اللاعب الرئيسي في سلسلة الغذاء.
مع ذلك، نظرًا لأسعار الربح لبطاقات الرسوميات من إنفيديا، نحن لا نزال نتطلع إلى مثل هذا المستقبل.
لحسن الحظ، هذه المرة هي أيضًا لعبة كبيرة لـ 老黄, والنتيجة غير معروفة.
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
قراءة واحدة لفهم كل شيء عن مؤتمر GTC لنفيديا: الإيمان القوي بأن قوة الحوسبة لا تنام أبدًا
المؤلف: سو يانغ ، هاو بو يانغ ؛ المصدر: تينسن تكنولوجيا
كما "بائع معدات التعدين" في عصر الذكاء الاصطناعي، يؤمن هوانغ رينزون وشركته إنفيديا بثقة دائمة بأن القوة الحسابية لا تنام.
! صورة
قال هوانغ رينشون في خطاب GTC إن الاستدلال أدى إلى زيادة مضاعفة في الطلب على القوة الحسابية بنسبة 100 مرة
في مؤتمر GTC اليوم، قدم هوانغ رينجيون Blackwell Ultra GPU الجديد تمامًا، بالإضافة إلى SKU للخادم المشتقة المستخدمة في الاستدلال والوكيل، وتشمل أيضًا عائلة منتجات RTX على أساس بنية Blackwell، وكل هذا مرتبط بالقوة الحسابية، ولكن الأهم بعد ذلك هو كيفية استهلاك القوة الحسابية بشكل معقول وفعال.
في نظر هوانغ ، هناك حاجة إلى قوة الحوسبة للوصول إلى AGI ، وتحتاج الروبوتات الذكية المتجسدة إلى قوة حوسبة ، ويتطلب بناء نماذج Omniverse والعالم تدفقا ثابتا من قوة الحوسبة ، وبالنسبة لمقدار قوة الحوسبة اللازمة للبشر لبناء "عالم مواز" افتراضي في النهاية ، أعطت Nvidia إجابة - 100 مرة من الماضي.
لدعم وجهة نظره، قام هوانغ رينغ شون بعرض مجموعة من البيانات في GTC - اشترت أربع شركات سحابية رئيسية في الولايات المتحدة ما مجموعه 1.3 مليون رقاقة بنية Hopper في عام 2024، وصعد هذا الرقم إلى 3.6 مليون رقاقة Blackwell GPU بحلول عام 2025.
النقاط الرئيسية لمؤتمر نفيديا GTC 2025 الذي قامت تقنية تنتسن بتنظيمه، كما قامت بتلخيصه تكنولوجيا تنتسن.
تم إطلاق علبة Blackwell
1) القنبلة النووية السنوية Blackwell Ultra في عصر الضغط على الأسنان
قامت NVIDIA بإصدار هندسة Blackwell في GTC العام الماضي وأطلقت شريحة GB200. تم تعديل الاسم الرسمي لهذا العام، حيث لم يعد يُطلق عليه الاسم الذي تم تداوله سابقًا GB300، بل سُمي مباشرة Blakwell Ultra.
ولكن من الناحية الأجهزة، فإنه يتم تبديل ذاكرة HBM الجديدة على أساس العام الماضي. ببساطة، Blackwell Ultra = إصدار ذاكرة كبيرة من Blackwell.
تم تجميع Blackwell Ultra من شريحتي تايوان سيميكوندكتور N4P (عملية 5 نانومتر) + بنية Blackwell Architecture + وحدة معالجة مركزية Grace CPU، مع ذاكرة HBM3e مكدسة بـ 12 طبقة أكثر تقدمًا، مع زيادة ذاكرة الوصول العشوائي إلى 288 جيجابايت، ودعم الجيل الخامس من NVLink كما في الجيل السابق، مما يتيح تحقيق عرض نطاق بيانات بين القطع بسرعة 1.8 تيرابايت/ثانية.
! صورة
معلمات أداء NVLink عبر الأجيال
بناءً على ترقية التخزين، يمكن لقدرة حساب دقة FP4 لـ Blackwell GPU أن تصل إلى 15 بيتافلوبس، وسرعة الاستدلال بناءً على آلية التسارع Attention يمكن أن ترتفع بمقدار 2.5 مرة مقارنة برقاقة هوبر.
2)Blackwell Ultra NVL72:حجابة خاصة بالذكاء الاصطناعي للاستدلال
! صورة
الصورة الرسمية لـ Blackwell Ultra NVL72
مثل GB200 NVL72 ، قدمت NVIDIA هذا العام أيضًا منتجًا مماثلًا وهو خزانة Blackwell Ultra NVL72 ، والتي تتألف من مجموعة من 18 صينية حوسبة ، حيث تحتوي كل صينية حوسبة على 4 وحدات GPU من نوع Blackwell Ultra و 2 وحدات معالج Grace CPU ، وبالتالي المجموع الكلي هو 72 وحدة GPU من نوع Blackwell Ultra و 36 وحدة معالج Grace CPU ، مع ذاكرة وصول عشوائي بسعة تصل إلى 20 تيرابايت وعرض نطاق إجمالي يبلغ 576 تيرابت في الثانية، بالإضافة إلى 9 صينيات تبديل NVLink (18 رقاقة تبديل NVLink)، وعرض نطاق NVLink بين العقد 130 تيرابت في الثانية.
تحتوي حاوية الخادم على 72 بطاقة شبكة CX-8 ، توفر عرض نطاق ترددي يبلغ 14.4TB / s ، بينما تساعد بطاقة Quantum-X800 InfiniBand وبطاقة Spectrum-X 800G Ethernet في تقليل التأخير والاهتزاز ، مما يدعم تجمعات AI كبيرة الحجم. بالإضافة إلى ذلك ، تم دمج 18 بطاقة BlueField-3 DPU لتعزيز الشبكة متعددة المشغلين والأمان وتسريع البيانات في الرف.
قالت إنفيديا إن هذا المنتج مصمم خصيصًا لعصر الذكاء الاصطناعي، وتشمل السيناريوهات التطبيقية الذكاء الاصطناعي الاستدلالي، والعميل، والذكاء الاصطناعي الفيزيائي والبيانات الاصطناعية لتدريب الروبوتات والقيادة الذكية (، وقد زاد أداء الذكاء الاصطناعي بنسبة 1.5 مرة مقارنة بالجيل السابق من المنتجات GB200 NVL72، وبالمقارنة مع منتجات خزانات DGX التي تستهدف نفس المكانة المعمارية هوبر، يمكن أن يوفر لمراكز البيانات فرصة لزيادة الإيرادات بنسبة 50 مرة.
وفقًا للمعلومات المقدمة من قبل الجهة الرسمية، يمكن لعملية استنتاج معلمات DeepSeek-R1 بقيمة 6710 مليار أن تحقق 100 رمز في الثانية بناءً على منتج H100، بينما يمكن للاستراتيجية Blackwell Ultra NVL72 تحقيق 1000 رمز في الثانية.
عند تحويلها إلى وقت ، يحتاج H100 لتشغيل 1.5 دقيقة لنفس مهمة التفكير ، بينما يمكن لـ Blackwell Ultra NVL72 أن ينتهي في 15 ثانية.
! [صورة])https://img.gateio.im/social/moments-ae009b85584d17a96ee0582e943e48ff(
مواصفات الأجهزة Blackwell Ultra NVL72 و GB200 NVL72
وفقًا للمعلومات المقدمة من قبل إنفيديا، من المتوقع أن يتم طرح منتج Blackwell NVL72 ذي الصلة في النصف الثاني من عام 2025، ويتضمن العملاء مصنعو الخوادم وشركات السحابة ومقدمو خدمات تأجير القوة الحسابية بعدة فئات كبيرة.
سيسكو/ديل/إتش بي/لينوفو/سوبر مي وغيرها من مصنعي الـ 15
AWS/Google Cloud/Azure/Oracleالخدمات السحابية الرئيسية ومنصات أخرى
مزود خدمات تأجير الطاقة الحسابية
كور ويف / لامدا / يوتا ، إلخ *
) 3)إعلان مسبق عن شريحة GPU Rubin الحقيقية "قنبلة نووية"
وفقًا لخريطة طريق إنفيديا ، فإن GTC2025 ستكون في Blackwell Ultra.
ومع ذلك، لم يكن هوانغ رينكسون أيضًا قد قام بالكشف عن الجيل القادم من وحدة GPU القائمة على بنية Rubin التي ستدرج في عام 2026، بالإضافة إلى كابينة Vera Rubin NVL144 الأقوى - 72 كور CPU Vera + 144 كور GPU Rubin، مزودة بذاكرة HBM4 بسعة 288 جيجابايت، وعرض نطاق للذاكرة 13 تيرابايت في الثانية، بالإضافة إلى الجيل السادس من NVLink وبطاقة الشبكة CX9.
مدى قوة هذا المنتج؟ قوة الحساب التكميلي FP4 تصل إلى 3.6ExaFLOPS، وقوة التدريب بدقة FP8 تصل أيضًا إلى 1.2ExaFlOPS، والأداء هو ثلاثة أضعاف لـ Blackwell Ultra NVL72.
إذا كنت تشعر أنك لا تزال لا تكفي، فلا مشكلة، في عام 2027 يوجد خزانة Rubin Ultra NVL576 أقوى بكثير، حيث تبلغ دقة FP4 للاستدلال و FP8 لقوة التدريب 15ExaFLOPS و 5ExaFLOPS على التوالي، وهي 14 مرة أعلى من Blackwell Ultra NVL72.
! [صورة]###https://img.gateio.im/social/moments-116d07948d787697d1e19a423dc7ace4(
معلمات Rubin Ultra NVL144 و Rubin Ultra NVL576 المقدمة من NVIDIA الرسمية
) 4)منتج Blackwell Ultra DGX Super POD 'مصنع الحوسبة الفائقة'
بالنسبة لأولئك الذين لا يمكن أن تلبي Blackwell Ultra NVL72 الاحتياجات في الوقت الحالي ولا يحتاجون إلى بناء مجموعة كبيرة جدًا من تجميع الذكاء الاصطناعي، فإن الحلول التي تقدمها إنفيديا تعتمد على Blackwell Ultra وهي مصنع DGX Super POD AI للذكاء الاصطناعي القابل للتوصيل والاستخدام.
باعتبارها مصنعًا لأجهزة الكمبيوتر الفائقة للذكاء الاصطناعي القابلة للتوصيل والاستخدام، يستهدف DGX Super POD بشكل رئيسي سيناريوهات الذكاء الاصطناعي التي تستند إلى الإنشاء، ووكلاء الذكاء الاصطناعي، والمحاكاة الفيزيائية وما إلى ذلك، مما يغطي الحاجة إلى قدرات الحساب من مرحلة المدربين المسبقين وحتى بيئة الإنتاج، Equinix كشركة خدمات رائدة تقدم الدعم للبنية التحتية السائلة/الهوائية.
! [صورة]###https://img.gateio.im/social/moments-d459d098063a0ff6728108328daffd3f(
DGX SuperPod الذي تم بناؤه بواسطة Blackwell Ultra
تم تقسيم DGX Super POD المعتمد على Blackwell Ultra إلى نسختين:
) 5) DGX سبارك ومحطة DGX
في يناير ###، كشفت إنفيديا عن منتج AI PC الاستشاري المسعور بسعر 3000 دولار في CES - Project DIGITS، والآن لديها اسم رسمي DGX Spark.
من ناحية المعلمات المنتج، يأتي مزودًا برقاقة GB10، يمكن لقوة الحساب تحت FP4 دقة الوصول إلى 1PetaFlops، مع 128 جيجابايت من ذاكرة LPDDR5X، بالإضافة إلى بطاقة شبكة CX-7، وتخزين NVMe بسعة 4 تيرابايت، يعمل بنظام تشغيل DGX OS المبني على Linux، ويدعم الإطارات مثل Pytorch، بالإضافة إلى تثبيت بعض أدوات تطوير البرمجيات الأساسية للذكاء الاصطناعي التي تقدمها NVIDIA، ويمكن تشغيل نماذج تحتوي على 2000 مليار معلمة. يقترب حجم الجهاز بأكمله من حجم Mac mini، يمكن لجهازي DGX Spark التفاعل، ويمكن أيضًا تشغيل نماذج تحتوي على أكثر من 4000 مليار معلمة.
على الرغم من أننا نقول إنها كمبيوتر شخصي ذكاء اصطناعي، إلا أنها في الأساس تنتمي لفئة الحوسبة فائقة، لذا تم وضعها في سلسلة منتجات DGX بدلاً من المنتجات على مستوى الاستهلاك مثل RTX.
ومع ذلك، هناك أيضًا أشخاص يشكون من هذا المنتج، حيث يكون أداء FP4 الإعلاني ذو دقة منخفضة، حيث يمكن مقارنته بـ RTX 5070 عند تحويله إلى دقة FP16، أو حتى بـ Arc B580 بتكلفة 250 دولارًا، مما يجعله ذو قيمة منخفضة للغاية.
! صورة
DGX Spark الحاسوب مع محطة العمل DGX
بالإضافة إلى DGX Spark الذي يحمل اسمه الرسمي، قدمت NVIDIA أيضًا محطة عمل AI مبنية على Blackwell Ultra، تحتوي هذه المحطة على معالج Grace ومعالج Blackwell Ultra، مع ذاكرة موحدة بسعة 784 جيجابايت وبطاقة شبكة CX-8، توفر 20 بيتافلوب من قوة الذكاء الاصطناعي (غير محددة رسميًا، ولكنها في النظرية دقة FP4 أيضًا).
6)RTX تجتاح أجهزة الكمبيوتر الذكية بالذكاء الاصطناعي، وتسعى أيضًا لدخول مراكز البيانات
المنتجات SKU المستندة إلى Grace CPU و Blackwell Ultra GPU التي تم تقديمها في السابق هي منتجات للشركات، ونظرًا لاهتمام الكثير من الناس بالاستخدامات الرائعة لمنتجات مثل RTX 4090 في التفكير الذكي، فقد قوَّى نفيديا تكامل سلسلة Blackwell و RTX في مؤتمر GTC هذا، وقدم مجموعة كبيرة من وحدات معالجة الرسومات المرتبطة بأجهزة الكمبيوتر الذكية للذكاء الاصطناعي مع ذاكرة داخلية من نوع GDDR7، تغطي الحواسيب المحمولة وأجهزة الكمبيوتر المكتبية وحتى مراكز البيانات.
! صورة
مجموعة AI "كل في واحد" من نفيديا الخاصة بالحوسبة الشركاتية
ما ذكر أعلاه هو فقط جزء من SKU المخصصة لمختلف السيناريوهات بناءً على رقاقة Blackwell Ultra ، من أجهزة العمل إلى عملاق مراكز البيانات ، وتعتبر NVIDIA نفسها "عائلة Blackwell" (عائلة Blackwell) ، وبالصينية تُترجم إلى "Blackwell الكامل".
نفيديا فوتونيكس: نظام CPO الذي يقف على كتفي الزملاء
مفهوم وحدة التعبئة المشتركة للكهروضوئية (CPO)، ببساطة، هو تغليف رقاقة التبديل ووحدة الضوء البصري معًا، يمكن تحقيق تحويل إشارة الضوء إلى إشارة كهربائية، واستغلال أداء نقل الضوء بشكل كامل.
قبل ذلك، كانت الصناعة تناقش دائمًا منتجات مفاتيح تبادل الشبكة CPO الخاصة بشركة إنفيديا، ولكنها لم تكن متاحة حتى الآن، وقدم هوانغ رينشون شرحًا في الموقع - نظرًا لاستخدام كميات كبيرة من الألياف البصرية في مراكز البيانات، فإن استهلاك الطاقة لشبكات الاتصال البصرية يعادل 10٪ من موارد الحساب، وتكلفة الاتصال البصري تؤثر مباشرة على شبكة Scale-Out للعقد الحسابية وكثافة أداء الذكاء الاصطناعي.
! صورة
المعلمات Quantum-X، Spectrum-X لشرائح السيليكون المشتركة المعروضة على GTC
قامت شركة NVIDIA هذا العام بإطلاق شريحة Quantum-X Silicon Photonics وشريحة Spectrum-X Silicon Photonics بالإضافة إلى ثلاث منتجات تبديل مشتقة: Quantum 3450-LD، وSpectrum SN6810، وSpectrum SN6800.
يتم تصنيف المنتجات المذكورة أعلاه بشكل موحد تحت "NVIDIA Photonics"، وقالت NVIDIA إن هذه منصة تطوير مشتركة تعتمد على شراكة CPO للنظام البيئي، على سبيل المثال، فإن معدل الحلقة الدقيقة (MRM) الذي تحمله مبني على محرك الضوء الخاص بشركة TSMC محسن لدعم التحكم بالليزر عالي الطاقة والكفاءة العالية، ويستخدم موصلات ألياف بصرية قابلة للإزالة.
مثير للاهتمام أن وفقًا للمعلومات السابقة في الصناعة، فإن معدل النظام الكهرومغناطيسي (MRM) لشركة TSMC هو نتاج تعاونها مع Broadcom على أساس تقنية العمل الحديثة بحجم 3 نانومتر وتقنيات التغليف المتقدمة مثل CoWoS.
وفقًا للبيانات المقدمة من إنفيديا ، يُعزز جهاز التبديل الفوتوني المتكامل الأداء بنسبة 3.5 مرات مقارنة بالمفاتيح التقليدية ، ويمكن رفع كفاءة النشر بنسبة 1.3 مرة ، بالإضافة إلى مرونة التوسع بأكثر من 10 مرات.
كفاءة النموذج PK DeepSeek: البيئة البرمجية تعزز وكيل الذكاء الاصطناعي
! صورة
في الموقع، وصف هوانغ رينشون الـ AI infra بـ "التورتة الكبيرة"
خلال نهضة ###، تحدث هوانغ رينجون فقط لمدة حوالي نصف ساعة حول البرمجيات والذكاء الاصطناعي. لذلك، كثير من التفاصيل تم استكمالها من خلال الوثائق الرسمية، وليس كلها من الموقع مباشرة.
( 1)Nvidia Dynamo، إنفيديا بناء CUDA جديد في مجال الاستدلال
Nvidia Dynamo هو بالتأكيد قنبلة برمجيات تم إطلاقها في هذا الحدث.
إنه برنامج مفتوح المصدر مصمم خصيصًا لتسريع عمليات الاستدلال والتدريب وتسريع جميع تطبيقات البيانات عبر مركز البيانات بأكمله. تعتبر بيانات أداء Dynamo مثيرة للدهشة: باستخدام الهندسة المعمارية Hopper الحالية، يمكن لـ Dynamo مضاعفة أداء النموذج القياسي Llama. وبالنسبة لنماذج الاستدلال المتخصصة مثل DeepSeek، تحسين الاستدلال الذكي لـ NVIDIA Dynamo قادر أيضًا على زيادة عدد الرموز التي يولدها كل وحدة معالجة الرسوميات بأكثر من 30 مرة.
! [صورة])https://img.gateio.im/social/moments-e2048dbf1ea9e5d046fd9fd8bca2a244(
قام Huang Renxun بتقديم عرض توضيحي لـ Blackwell الذي يحتوي على Dynamo ، ويمكن أن يتجاوز Hopper بأكثر من 25 مرة
استفادت تحسينات Dynamo هذه بشكل رئيسي من التوزيع. إنه يوزع مراحل الحساب المختلفة لـ LLM (فهم استعلام المستخدم وإنشاء الاستجابة الأفضل) على GPU مختلفة ، مما يتيح تحسين كل مرحلة بشكل مستقل ، وزيادة الإنتاجية وتسريع سرعة الاستجابة.
! [صورة])https://img.gateio.im/social/moments-380b9fe8c64618f264b3e2a82e3da790(
بنية النظام دينامو
على سبيل المثال، أثناء مرحلة معالجة المدخلات، وهي مرحلة ما قبل التعبئة، يكون Dynamo قادرا على تخصيص موارد وحدة معالجة الرسومات بكفاءة لمعالجة مدخلات المستخدم. سيستخدم النظام مجموعات متعددة من وحدات معالجة الرسومات لمعالجة استفسارات المستخدم بالتوازي ، على أمل أن تكون معالجة GPU أكثر توزيعا وأسرع. يستخدم Dynamo وضع FP4 لاستدعاء وحدات معالجة رسومات متعددة "لقراءة" و "فهم" مشكلة المستخدم بالتوازي في نفس الوقت ، حيث تتعامل مجموعة واحدة مع المعرفة الأساسية للحرب العالمية الثانية ، ومجموعة أخرى تتعامل مع المواد التاريخية المتعلقة ب "الأسباب" ، ومجموعة ثالثة تتعامل مع الجدول الزمني "المنقضي" والأحداث.
في إنشاء الرموز المميزة للإخراج ، أي في مرحلة فك التشفير ، يجب أن تكون وحدة معالجة الرسومات أكثر تركيزا وتماسكا. مقارنة بعدد وحدات معالجة الرسومات ، تتطلب هذه المرحلة مزيدا من النطاق الترددي لاستيعاب معلومات التفكير في المرحلة السابقة ، لذلك تتطلب أيضا المزيد من قراءات ذاكرة التخزين المؤقت. يعمل Dynamo على تحسين الاتصالات بين وحدات معالجة الرسومات وتخصيص الموارد لضمان توليد استجابة متسقة وفعالة. من ناحية ، فإنه يستفيد بشكل كامل من قدرة اتصال NVLink ذات النطاق الترددي العالي لبنية NVL72 لزيادة كفاءة توليد الرمز المميز. من ناحية أخرى ، يوجه "Smart Router" الطلبات إلى وحدة معالجة الرسومات التي قامت بتخزين ) قيمة مفتاح KV( ذات الصلة مؤقتا ، مما يتجنب الحساب المزدوج ويحسن سرعة المعالجة بشكل كبير. من خلال تجنب الحساب المزدوج، يتم تحرير بعض موارد وحدة معالجة الرسومات، ويمكن ل Dynamo تخصيص هذه الموارد الخاملة ديناميكيا للطلبات الواردة الجديدة.
هذا النظام الهيكلي وهيكل Mooncake الخاص بـ Kimi متشابهان إلى حد كبير، ولكن NVIDIA قامت بدعم أكثر على مستوى البنية التحتية. من المحتمل أن يزيد Mooncake بنسبة تقريبية 5 مرات، ولكن التحسين الأكبر في Dynamo يظهر بشكل أوضح في التحليل.
على سبيل المثال، من بين الابتكارات الرئيسية في Dynamo، يقوم "مخطط وحدة معالجة الرسومات" بضبط تخصيص وحدة معالجة الرسومات ديناميكيا بناء على الحمل، وتعمل "مكتبة الاتصالات ذات زمن الانتقال المنخفض" على تحسين نقل البيانات بين وحدات معالجة الرسومات، وينقل "مدير الذاكرة" بذكاء بيانات الاستدلال بين أجهزة التخزين بمستويات تكلفة مختلفة، مما يقلل من تكاليف التشغيل بشكل أكبر. يوجه جهاز التوجيه الذكي ، وهو نظام توجيه مدرك ل LLM ، الطلبات إلى وحدة معالجة الرسومات الأكثر ملاءمة لتقليل العد المزدوج. تعمل كل هذه الإمكانات على تحسين الحمل على وحدة معالجة الرسومات.
يمكن توسيع نظام الاستدلال هذا بكفاءة إلى مجموعة كبيرة من وحدات المعالجة الرسومية، مما يمكن جعل الاستعلام الذكي الفردي يمتد بسلاسة إلى ما يصل إلى 1000 وحدة معالجة رسومية للاستفادة الكاملة من موارد المراكز البيانات.
بالنسبة لمشغلي GPU، جعل هذا التحسين تكلفة كل مليون رمز تنخفض بشكل كبير، مع زيادة كبيرة في القدرة الإنتاجية. في الوقت نفسه، يحصل كل مستخدم على المزيد من الرموز في الثانية، مع استجابة أسرع، وتحسين تجربة المستخدم.
! [صورة])https://img.gateio.im/social/moments-f8de7caca1c8cdd058d3b932d7d378a1###
من خلال Dynamo، يمكن للخادم تحقيق الحد الأدنى من الاستجابة وسرعة الاستجابة
على عكس CUDA كأساس أساسي لبرمجة وحدة معالجة الرسومات (GPU) ، فإن Dynamo هو نظام على مستوى أعلى يركز على تخصيص وإدارة الحمل الذكي للاستدلال بمقياس كبير. إنه مسؤول عن طبقة جدولة الاستدلال الموزعة المحسنة ، الموجودة بين تطبيق البرنامج والبنية الأساسية للحسابات. ولكن تمامًا مثلما غيرت CUDA تمامًا مشهد الحوسبة الجرافيكية قبل أكثر من عقد من الزمان ، فإن Dynamo قد ينجح أيضًا في إيجاد نموذج جديد لكفاءة برمجيات وأجهزة الاستدلال.
Dynamo هو مفتوح بالكامل ويدعم جميع الأطر الرئيسية من PyTorch إلى Tensor RT. بمثل هذا الانفتاح ، لا يزال لديه حاجز وقائي. مثل CUDA ، فهو فعال فقط على GPU الخاصة بـ NVIDIA ، وهو جزء من تراكم برامج AI للحوسبة من NVIDIA.
من خلال ترقية هذا البرنامج، قامت NVIDIA ببناء دفاعها الخاص ضد شركات مثل Groq التي تقدم شرائح ASIC خاصة بالاستدلال. يجب تنسيق البرنامج مع الأجهزة بشكل جيد لقيادة البنية التحتية للتفكير.
( 2)عرض نموذج Llama Nemotron الجديد كفاءة عالية، ولكنه لا يزال لا يمكنه التغلب على DeepSeek
على الرغم من أن Dynamo مدهش بالفعل من حيث استخدام الخادم، إلا أن NVIDIA لا تزال تعاني قليلاً في تدريب النماذج مقارنة بالخبراء الحقيقيين.
تستخدم Nvidia نموذجا جديدا Llama Nemotron في GTC هذا ، والذي يركز على الكفاءة والدقة. مشتق من سلسلة نماذج اللاما. بعد الضبط الدقيق الخاص بواسطة NVIDIA ، مقارنة بجسم اللاما ، تم تحسين هذا النموذج من خلال تقليم الخوارزمية وتحسينها ، وهو أخف وزنا ، 48B فقط. كما أن لديها قدرات منطقية تشبه O1. مثل Claude 3.7 و Grok 3 ، يحتوي طراز Llama Nemotron على مفتاح استدلال مدمج ، والذي يمكن للمستخدم اختيار تشغيله أو إيقاف تشغيله. تنقسم السلسلة إلى ثلاث مستويات: Nano للمبتدئين ، و Super متوسط المدى ، و Ultra الرائد ، كل منها مصمم للشركات من جميع الأحجام.
! [صورة])https://img.gateio.im/social/moments-f96380931cf2a144170345b7ec105846(
بيانات Llama Nemotron المحددة
عند الحديث عن الكفاءة، فإن مجموعة بيانات التدريب الدقيقة لهذا النموذج تتألف تمامًا من بيانات تركيبية تم إنشاؤها بواسطة NVIDIA نفسها، بإجمالي حوالي 60B token. بالمقارنة مع التدريب الكامل الذي استغرق 130 ساعة من H100 لـ DeepSeek V3، فإن هذا النموذج الذي يحتوي على 1/15 من عدد المعلمات في DeepSeek V3 فقط استخدم 36 ألف ساعة من H100 للتحسين فقط. كفاءة التدريب تكون أقل بدرجة واحدة مقارنة بـ DeepSeek.
من الناحية الفعالية في التحقق، يُظهر نموذج Llama Nemotron Super 49B أداءً أفضل بكثير من الجيل السابق بالفعل، حيث يمكن أن تصل قدرة تمرير الرمز الخاصة به إلى 5 مرات من Llama 3 70B، وتحت GPU في مركز بيانات واحد يمكن لها أن تمرر أكثر من 3000 رمز في الثانية. ومع ذلك، في البيانات التي نُشرت في اليوم الأخير من Open Day الخاص بـ DeepSeek، كانت قدرة التمرير الوسيطية لكل عقد H800 حوالي 73.7 ألف رمز/ثانية أثناء فترة التحميل المسبق (بما في ذلك ضربات الذاكرة المؤقتة) أو حوالي 14.8 ألف رمز/ثانية أثناء الفك. الفرق بينهما لا يزال واضحًا.
! [صورة])https://img.gateio.im/social/moments-8378715743f1e60d041a3cd7d7c219de###
من الناحية الأداء، تتفوق Llama Nemotron Super بسعة 49B في جميع المؤشرات على نموذج Llama 70B الذي تم تقطيره بواسطة DeepSeek R1. ومع ذلك، نظرًا للنماذج الصغيرة عالية الأداء مثل Qwen QwQ بسعة 32B التي تم إصدارها بشكل متكرر مؤخرًا، يُقدر أن يكون Llama Nemotron Super صعبًا في التألق بين هذه النماذج التي يمكنها منافسة R1 بنفسه.
أكثر شيء مهم هو أن هذا النموذج يثبت حقيقة أن DeepSeek قد يكون أكثر فهمًا لضبط وحدة معالجة الرسوميات خلال عملية التدريب من إنفيديا.
( 3)النموذج الجديد هو مجرد المقبلات على بيئة الوكيل الذكي لـ NVIDIA AI، AIQ هو الطبق الرئيسي
لماذا تطور إنفيديا نموذج استدلال؟ هذا يعود في الأساس إلى الإعداد لما يعتبره السيد الأصفر النقطة المفتاحية التالية للذكاء الاصطناعي - وكيل الذكاء الاصطناعي. منذ إنشاء شركات كبيرة مثل OpenAI و Claude تدريجيًا أسسًا للوكيل من خلال DeepReasearch و MCP، يبدو أن إنفيديا يعتقد أيضًا بشكل واضح أن عصر الوكلاء قد حان.
مشروع NVIDA AIQ هو محاولة من NVIDIA مباشرة. إنه يوفر مساقًا جاهزًا لوكيل AI لمخطط يعتمد على نموذج الاستدلال Llama Nemotron كنواة. ينتمي هذا المشروع إلى مستوى Blueprint (المخطط) لـ NVIDIA، وهو يشير إلى مجموعة من سير العمل المرجعية المعدة مسبقًا، وهو قالب لمساعدة المطورين على دمج تقنيات ومكتبات NVIDIA بشكل أسهل. ويعد AIQ قالب وكيل يقدمه NVIDIA.
! [صورة])https://img.gateio.im/social/moments-97ea77b03ad4a4fe4b1b1fede25596a4(
تصميم NVIDA AIQ
مثل Manus، فإنه يدمج محركات البحث عبر الإنترنت وأدوات AI المهنية الأخرى مثل الوكالة الخارجية، مما يتيح للوكالة نفسها أن تبحث وتستخدم مجموعة متنوعة من الأدوات. من خلال تخطيط نموذج الترتيب Llama Nemotron، يتم التفكير بشكل معمق وتحسين خطط المعالجة لإكمال مهام المستخدم. بالإضافة إلى ذلك، فإنه يدعم أيضًا بنية تدفق العمل لعدة وكالات.
! [صورة])https://img.gateio.im/social/moments-075dfe522598ad052ab2907c048fb015(
نظام servicenow الذي تم إنشاؤه بناءً على هذا القالب
ما هو أكثر تقدما من Manus هو أنه يحتوي على نظام RAG معقد موجه لملفات الشركات. يتضمن هذا النظام سلسلة من الخطوات بما في ذلك الاستخراج والتضمين وتخزين الناقلات وإعادة ترتيبها في النهاية من خلال معالجة LLM، مما يضمن أن تكون بيانات الشركة متاحة للوكيل.
وبالإضافة إلى ذلك، قدمت Nvidia منصة بيانات AI، تقوم بتوصيل نماذج الاستدلال AI بأنظمة بيانات الشركات، وتشكل DeepReasearch مخصصة لبيانات الشركات. هذا الأمر يدفع تقدمًا كبيرًا في تكنولوجيا التخزين، حيث يجعل النظام التخزيني ليس مجرد مستودع للبيانات بل منصة ذكية تتمتع بقدرة استدلال وتحليل نشطة.
! [صورة])https://img.gateio.im/social/moments-a39ee6ec030b38226c1811e5d14a2348###
تكوين منصة بيانات الذكاء الاصطناعي
وتشدد AIQ بشكل كبير على آليات الرصد والشفافية. هذا مهم للغاية بالنسبة للأمان والتحسينات اللاحقة. يمكن لفريق التطوير مراقبة نشاط الوكيل في الوقت الفعلي وتحسين النظام بشكل مستمر بناءً على البيانات الأدائية.
بصفة عامة ، يعتبر NVIDA AIQ قالب عمل وكيل قياسيًا ، ويوفر مجموعة متنوعة من قدرات الوكيل. إنه نوع من برامج بناء الوكيل Dify الأكثر ذكاءً التي تتطور إلى عصر التفكير.
تم إصدار نموذج أساسي لروبوتات البشرية. تريد إنفيديا إنشاء بيئة مادية مغلقة بالكامل.
( 1)Cosmos، تمكين الذكاء الاصطناعي من فهم العالم
إذا كان التركيز على Agent أو الرهان على الحاضر، فإن NVIDIA في مجال الذكاء الاصطناعي يمكن اعتبارها بالكامل جزءًا من تكامل المستقبل.
نفذت نفذت النموذج والبيانات والقوة الحسابية الثلاثة عناصر من نفذت نفذت.
يبدأ الحديث عن نموذج أولي، حيث تم إصدار النسخة المحدثة من نموذج Cosmos للذكاء الاصطناعي الجسدي الذي تم الإعلان عنه في يناير من هذا العام خلال GTC.
كوسموس هو نموذج يمكنه توقع الصور المستقبلية من خلال الصور الحالية. يمكنه أن يأخذ البيانات من النص/الصور وينشئ فيديو مفصل، ويستخدم حالته الحالية (صورة/فيديو) مع الحركات (تلميحات/إشارات تحكم) لتوقع تطور المشهد. نظرًا لأن هذا يتطلب فهمًا لقوانين السببية الفيزيائية في العالم، يطلق عليه نفيديا اسم نموذج الأساس العالمي (WFM).
! [صورة])https://img.gateio.im/social/moments-96eed5a18a4c78811de012d7353fe71d(
البنية الأساسية لكوسموس
بالنسبة للذكاء الجسدي ، فإن قدرة توقع سلوك الآلة وتأثيرها على العالم الخارجي هي القدرة الأساسية. فقط من خلال ذلك ، يمكن للنموذج أن يخطط للسلوك بناءً على التوقعات ، لذا يصبح نموذج العالم أساسًا للذكاء الجسدي. بفضل هذا النموذج الأساسي للتنبؤ بتغيير العالم الفيزيائي / الزمني للسلوك ، يمكن لهذا النموذج بالتحديد تلبية متطلبات تطبيق الذكاء الجسدي ذو الشكل الفيزيائي المختلفة من خلال ضبط بيانات مجموعة البيانات لقيادة السيارات التلقائية ومهام الروبوت.
يتضمن النموذج بالكامل ثلاثة قدرات، الجزء الأول Cosmos Transfer يحول إدخال النصوص المهيكلة لمقاطع الفيديو إلى إخراج فيديو واقعي قابل للتحكم، وينتج بيانات توليدية على نطاق واسع عن طريق النصوص. يحل هذا المشكلة الرئيسية للذكاء الواقعي الحالي - مشكلة نقص البيانات. وهذا الإنتاج هو نوع من الإنتاج "القابل للتحكم"، وهذا يعني أن المستخدم يمكنه تحديد معلمات محددة (مثل ظروف الطقس، وخصائص الكائنات، إلخ)، وسيقوم النموذج بضبط النتائج المولدة بشكل مناسب، مما يجعل عملية توليد البيانات أكثر قابلية للتحكم وتوجيهًا. يمكن أيضًا دمج العملية بالكامل بين Ominiverse وCosmos.
! [صورة])https://img.gateio.im/social/moments-e6b5268dffdd018830e53f9ae2c2515###
Cosmos مبني على محاكاة الواقع في Ominiverse
يمكن لجزء Cosmos Predict الثاني توليد حالة العالم الافتراضي من مدخلات متعددة الأوضاع، ودعم توليد العديد من الإطارات وتوقع مسارات الحركة. هذا يعني أنه، بتوفير الحالة الابتدائية والنهائية، يمكن للنموذج توليد عملية وسيطة معقولة. هذه هي قدرة بناء وإدراك العالم الفيزيائي الأساسية.
الجزء الثالث هو Cosmos Reason ، وهو نموذج مفتوح وقابل للتخصيص بالكامل ، يتمتع بقدرة على إدراك الزمان والمكان ، وفهم بيانات الفيديو من خلال التفكير السلسلي وتوقع نتائج التفاعل. هذه هي القدرة على تعزيز التخطيط السلوكي وتوقع نتائج السلوك.
مع تراكم هذه القدرات الثلاثة، يمكن لـ Cosmos أن تحقق سلسلة كاملة من السلوك من إدخال رمز الصورة الواقعية + تلميحات الأوامر النصية إلى إخراج رمز الإجراءات الآلية.
يجب أن يكون هذا النموذج الأساسي فعالًا بالفعل. بعد شهرين فقط من إطلاقه، بدأت شركات رائدة مثل 1X وAgility Robotics وFigure AI في استخدامه. ليس لدى النموذج اللغوي الكبير الريادة، لكن نفيديا في مجال الذكاء الاصطناعي يقع فعليًا ضمن الفئة الأولى.
( 2)إسحاق GR00T N1، النموذج الأساسي الأول في العالم لروبوت بشري
مع كوسموس، قامت إنفيديا بضبط إطار العمل هذا بشكل طبيعي لتدريب نموذج الأساسي Isaac GR00T N1 المخصص للروبوتات البشرية.
! [صورة])https://img.gateio.im/social/moments-03f9b90d7d4337d4b49542337c32cccf(
تصميم نظامي Isaac GR00T N1
تعتمد هيكلية النظام المزدوج، مع “النظام 1” الذي يستجيب بسرعة و“النظام 2” الذي يقوم بالتفكير العميق. وبفضل ضبطها الشامل، يمكنها التعامل مع المهام العامة مثل الالتقاط والتنقل والتحكم بالذراعين بسرعة. بالإضافة إلى ذلك، يمكن تخصيصها تمامًا للروبوتات الفردية، حيث يمكن لمطوري الروبوتات استخدام بيانات حقيقية أو مصنعة للتدريب اللاحق. وهذا يعني أن هذا النموذج يمكن أن يتم نشره في مجموعة متنوعة من الروبوتات ذات الأشكال المختلفة في الواقع.
على سبيل المثال، تعاونت NVIDIA مع Google DeepMind و Disney لتطوير محرك الفيزياء Newton، واستخدمت Isaac GR00T N1 كقاعدة لتشغيل روبوت BDX صغير غير شائع جدًا. يظهر ذلك قوة استخدامه العامة. يعتبر Newton محرك الفيزياء حساسًا للغاية، وبالتالي يكفي لإنشاء نظام مكافآت فيزيائي لتدريب الكائنات الذكية في البيئة الافتراضية.
! [صورة])https://img.gateio.im/social/moments-cb2f7f01e71700f7175d3a81f75d38b9###
تفاعل شون رينشون مع روبوت BDX على المسرح
( 4)إنشاء البيانات، بجهد مزدوج
جمعت NVIDIA Omniverse و NVIDIA Cosmos Transfer معًا لتطوير نموذج العالم الأساسي عالمي، Isaac GR00T Blueprint. يمكنه توليد كمية كبيرة من بجهود بشرية قليلة لبيانات الحركة التخيلية، واستخدامها في تدريب الروبوتات. استخدمت NVIDIA أجزاء Blueprint الأولية لإنشاء 780,000 مسار تخيلي في 11 ساعة فقط، ما يعادل بيانات عرضية على مدار 6,500 ساعة (حوالي 9 أشهر). يأتي جزء كبير من بيانات Isaac GR00T N1 من هذه البيانات، حيث زاد أداء GR00T N1 بنسبة 40% مقارنة بالاعتماد فقط على البيانات الحقيقية.
! [صورة])https://img.gateio.im/social/moments-4a7651bbdc8a83e0c1d4c39e114d730a###
نظام المحاكاة التوأم
بالنسبة لكل نموذج، يمكن لإنفيديا توفير كميات كبيرة من البيانات عالية الجودة باستخدام هذه النظام الافتراضي النقي ونظام إنشاء الصور العالمي الحقيقي هذا. إن إنفيديا تغطي الجانب الثاني لهذا النموذج أيضًا.
( 3)نظام قوة الحساب الثلاثي الأبعاد، لبناء إمبراطورية الحساب الآلي من التدريب إلى الطرف
بدأ السيد هوانغ من العام الماضي في التركيز على مفهوم "ثلاث حواسيب" على GTC: أولها هو DGX، وهو خادم يحتوي على معالج رسوميات كبير، يُستخدم لتدريب الذكاء الاصطناعي، بما في ذلك الذكاء البشري. الثاني AGX، هو منصة حوسبة مدمجة صممتها NVIDIA للحوسبة الحافة والأنظمة الذاتية، يتم استخدامها لنشر الذكاء الاصطناعي بشكل محدد على الطرفية، مثل كونها شريحة أساسية للقيادة الآلية أو الروبوتات. الثالث هو كمبيوتر توليد بيانات Omniverse+Cosmos.
! [صورة])https://img.gateio.im/social/moments-7dba53ee823059c29b6b23fb6e0a86f5
النظام الحسابي الثلاثي للذكاء الحيوي
تمت إعادة إحياء هذا النظام مرة أخرى من قبل لاو هوانغ في GTC هذه المرة ، وأشير بشكل خاص إلى أن هذا النظام الحاسوبي يمكن أن يولد مليار روبوت. من التدريب إلى النشر ، يُستخدم إنفيديا للقوة الحسابية. هذا الجزء أيضًا تم إغلاقه.
الختام
إذا ما قارنا ببساطة بين شريحة Blackwell الجيل السابقة، فإن Blackwell Ultra لا تتطابق فعلياً مع تلك الصفات مثل "قنبلة نووية" أو "ملك الضربات" من الناحية الأجهزة، حتى بل ربما تحمل بعض رائحة ضغط الأسنان.
ولكن إذا نظرنا إلى التخطيط الخريطي، فإن هذه العوامل جميعها تقع ضمن تصميم هوانغ رينشون، وستشهد هناك زيادة كبيرة في معمارية روبين للعامين القادمين من حيث تقنية الشرائح والترانزستورات ودمج الأنظمة في الأرفف وتوصيلات وحدات معالجة الرسومات ووحدات الخزانات، بما يتفق مع المقولة الصينية التقليدية "الأفضل لم يأت بعد".
مقارنة بين تحقيق جوع الرسم البياني على مستوى الأجهزة ، يمكن القول إن NVIDIA كانت تتقدم بسرعة على مستوى البرمجيات خلال السنتين الماضيتين.
نظرًا لنظرة شاملة على البيئة البرمجية الكاملة لـ NVIDIA ، فإن خدمات الطبقة الثلاثة MENO و NIM و BLUEPRINT تتضمن الأمثلة وتغليف النماذج في حلول الشبكة الكاملة لبناء التطبيقات. يتم تضمين بيئة شركة الخدمات السحابية بالكامل في NVIDIA AI. بالإضافة إلى العامل الجديد وهو الوكيل الذي تم إضافته هذه المرة ، فإن NVIDIA تتطلع إلى استيعاب الجانب الكامل لبيئة AI Infra.
هذا الجزء من البرنامج، شهية السيد لاو ليس أقل من سعر سهم شركة إنفيديا.
وفي سوق الروبوتات، تكبير نفوذ نفيديا أكبر. النماذج، البيانات، وحدة الحساب الثلاثة عوامل تمسك بها بيد من حديد. لم ينجح في الانضمام إلى كرسي الرئاسة لنموذج اللغة الأساسي، وبذلك يكمل الذكاء الصناعي الأساسي. بوضوح، بدأ عملاق الاحتكار إصدار النسخة الذكية القائمة على الذكاء الصناعي في الظهور على الأفق.
في هذا السياق، كل جزء، كل منتج يناسب سوق تبلغ قيمتها المحتملة الكبيرة بمليارات الدولارات. كان حظ جيد قديم يلعب دورًا، حيث بدأ الملياردير هوانغ رينشون، الذي اعتمد على الأرباح من هيمنته على سوق وحدات المعالجة الرسومية، في لعبة قمار أكبر.
إذا كانت البرمجيات أو سوق الروبوتات تسيطر على أي جانب في هذه اللعبة ، فإن Nvidia هي Google في عصر الذكاء الاصطناعي ، وهي اللاعب الرئيسي في سلسلة الغذاء.
مع ذلك، نظرًا لأسعار الربح لبطاقات الرسوميات من إنفيديا، نحن لا نزال نتطلع إلى مثل هذا المستقبل.
لحسن الحظ، هذه المرة هي أيضًا لعبة كبيرة لـ 老黄, والنتيجة غير معروفة.