نظام استنتاج مفتوح المصدر Perplexity، pplx-garden، يتجاوز ضريبة الشبكة من NVIDIA لتحقيق اتصال سريع متعدد البطاقات

robot
إنشاء الملخص قيد التقدم
ME AI رسالة، وفقًا لمراقبة Beating، أطلقت محركات البحث العملاقة Perplexity AI رسميًا أداة البنية التحتية عالية الأداء للاستدلال في بيئة الإنتاج مفتوحة المصدر باسم pplx-garden. جوهر المشروع هو مكتبة الاتصال من نقطة إلى نقطة عالية الأداء التي تم تطويرها داخليًا باستخدام Rust، والمعروفة باسم fabric-lib (المعروفة أيضًا باسم TransferEngine)، والتي تهدف إلى كسر ارتباط بروتوكول الاتصال الحصري الخاص بشركة NVIDIA، لمساعدة المطورين على تشغيل نماذج كبيرة ذات تريليونات من المعاملات بسرعة على مجموعات بطاقات رسومية متعددة غير متجانسة دون الحاجة لشراء محولات شبكة حصرية باهظة الثمن. تعتمد استدلالات النماذج الكبيرة الموزعة التقليدية بشكل كبير على شبكة الاتصال عالية السرعة الحصرية من NVIDIA، مما يؤدي إلى تكاليف نشر عالية جدًا ويواجه قيودًا في سلسلة التوريد. نفذت fabric-lib عملية إزالة الارتباط على مستوى الأجهزة، فهي تتوافق بشكل مثالي مع بطاقة الشبكة NVIDIA ConnectX-7، وتدعم بشكل أصلي بطاقة Ethernet التقليدية AWS EFA ذات السعر الرخيص من أمازون، مما يرفع عرض النطاق الترددي للشبكة بين البطاقات إلى 400 جيجابت في الثانية. لمعالجة العيوب الفيزيائية لنقل AWS EFA غير المرتب، ابتكرت Perplexity لأول مرة آلية مزامنة العدادات ImmCounter، والتي تتيح تدفق البيانات بكفاءة «بدون نسخ» دون فرض فرضية ترتيب الحزم. يتضمن مكتبة الاتصال خوارزمية توزيع بيانات مصممة خصيصًا لنموذج الخبراء المختلط MoE، حيث تتداخل استلام البيانات من البطاقة الرسومية مع الحسابات المصفوفية بشكل عميق، مما يعظم من قوة الحوسبة في مرحلة فك التشفير. في الإنتاج الفعلي، تحقق pplx-garden فوائد هندسية ملحوظة جدًا. في بنية الاستدلال المفصولة، نفذت مكتبة الشبكة جدولة سريعة لمخزن القيم بين عقدة التهيئة المسبقة وعقدة المفكك. في تدريب التعلم المعزز غير المتزامن، يمكن إكمال مزامنة وتوزيع أوزان النموذج ذو التريليونات من المعاملات في 1.3 ثانية فقط. ولحل مشكلة تأخير الحساب في مرحلة التجزئة، قامت pplx-garden بفتح مصدر أداة pplx-unigram المجددة باستخدام Rust، مما قلل استهلاك وحدة المعالجة المركزية بمقدار 5 إلى 6 مرات، وأزال عنق الزجاجة في الأداء في مرحلة التجزئة بين نماذج الترتيب والنماذج الموجهة. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 3
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
GlassDomeRoaming
· منذ 4 س
pplx-unigram يقلل من استهلاك وحدة المعالجة المركزية بمقدار 5-6 مرات، وأخيرًا لم تعد عملية التقسيم كلمة عائقًا خفيًا، فقط بعد أن قمت بتحليل الأداء أدركت مدى تفاقم الأمر.
شاهد النسخة الأصليةرد0
RefrigeratorMagnetContract
· منذ 4 س
عرض النطاق الترددي 400 جيجابت في الثانية يبدو رائعًا، لكن fabric-lib بدون الربط بالأجهزة هو حقًا تحرير الصيانة.
شاهد النسخة الأصليةرد0
GateUser-3e7da866
· منذ 4 س
توزيع بيانات MoE وتداخل الحسابات، مع استغلال كامل لكفاءة الأجهزة، هذا النهج التصميمي يستحق دراسة عميقة للكود المصدري.
شاهد النسخة الأصليةرد0
  • مُثبت