عصر الاستدلال بالذكاء الاصطناعي: كيف تصنع إنفيديا تاج الموجة القادمة من قوة الحوسبة؟

robot
إنشاء الملخص قيد التقدم

في عصر GPT-3، كان النموذج الذي يضم 175 مليار معلمة ضخمًا بالفعل؛ واليوم، أصبحت نماذج الخبراء المختلطين ذات تريليونات المعلمات هي الحالة الاعتيادية. أكبر مشكلة تواجه صناعة الذكاء الاصطناعي حاليًا - تأخير الاستدلال - أصبحت العقبة التالية التي تسعى NVIDIA إلى التغلب عليها.

الفلسفة التصميمية لـ GPU التي تركز على “الأداء من خلال المعالجة” تواجه تحديات كبيرة في سيناريوهات الاستدلال التفاعلية في الوقت الحقيقي. ولكن عند معالجة طلبات المستخدم الفردية “دفعة صغيرة، توليد متسلسل”، فإن الهيكل المعتمد على ذاكرة عالية النطاق الترددي (HBM) يؤدي إلى عمليات نقل بيانات متكررة، مما يسبب تأخيرًا كبيرًا وهدرًا في الطاقة.

ظهور وحدة المعالجة اللينة (LPU) جاء لحل هذا التوافق البنيوي الأساسي الخاطئ.

ما هي المراحل الأساسية في سلسلة الصناعة التي تستحق أن نوليها اهتمامًا خاصًا في عصر الاستدلال، متجاوزين الضوضاء المعقدة في السلسلة؟

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.42Kعدد الحائزين:2
    0.07%
  • القيمة السوقية:$2.44Kعدد الحائزين:2
    0.07%
  • القيمة السوقية:$2.39Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • تثبيت