الجانب المظلم للقمر والأبحاث الجديدة من جامعة تسينغهوا: يمكن لملء النموذج المسبق في نماذج اللغة الكبيرة أن يتجاوز مراكز البيانات، وزيادة قدرة المعالجة لنموذج 1 تيرابايت بنسبة 54%

robot
إنشاء الملخص قيد التقدم
أخبار ME News، في 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، نشرت Moonshot AI مع جامعة Tsinghua في 16 أبريل ورقة بحثية جديدة على arXiv بعنوان «Prefill-as-a-Service»، اقترحت فيها تشغيل مرحلة التعبئة المسبقة (prefill) لنموذج كبير عبر مراكز البيانات. تتكون استنتاجات النموذج الكبير من خطوتين: أولاً، يقوم بقراءة الإدخال مرة واحدة وتوليد ذاكرة تخزين مؤقتة من زوج المفاتيح والقيم (KV)؛ ثم، ثانيًا، يقوم بالترميز (decode) بإخراج النتائج كلمة بكلمة استنادًا إلى هذه الذاكرة المؤقتة. تتطلب الخطوتان خصائص أجهزة مختلفة تمامًا، حيث تستهلك مرحلة التعبئة الحساب، بينما تستهلك مرحلة الترميز الذاكرة ووحدة عرض النطاق الترددي للذاكرة. الممارسة السائدة في الصناعة هي فصل الخطوتين على آلات مختلفة (فصل PD)، لكن ذلك يتطلب اتصال RDMA بين الطرفين داخل نفس مركز البيانات، لأن ذاكرة KV لنماذج الانتباه المكثف تُخرج بسرعة عشرات Gbps في الثانية، وإذا كانت النقل بطيئًا، فإن وحدة المعالجة الرسومية (GPU) ستتوقف عن العمل. يأتي التحول من جيل جديد من نماذج الانتباه الهجينة. أظهرت الاختبارات أن نماذج مثل Kimi Linear و MiMo-V2-Flash و Ring-2.5-1T، من خلال مجموعة صغيرة من طبقات الانتباه الكاملة ودمجها مع العديد من الطبقات الخطية، قللت من خلال ذاكرة KV المؤقتة بمقدار حوالي رتبة واحدة، وحقق Ring-2.5-1T نسبة ضغط إجمالية تصل إلى 36 ضعفًا. في هذه الحالة، يمكن نقل ذاكرة KV من شبكة خاصة تعتمد على RDMA إلى شبكة إيثرنت عادية للتحميل. النهج المحدد لـ PrfaaS هو إنشاء «عنقود تعبئة مسبقة» مستقل، يوجه الطلبات ذات السياقات الطويلة، والطلبات التي لم يتم استيفاؤها بعد، إلى هناك، بينما تظل الطلبات القصيرة في عنقود PD المحلي؛ بعد إكمال التعبئة المسبقة، يتم إعادة إرسال ذاكرة KV عبر الإيثرنت إلى العنقود المحلي لإجراء الترميز. كما يتم إدخال فاصل طول الطلب، ومنظم جدولة يعتمد على عرض النطاق الترددي، ومخزن ذاكرة مؤقتة مختلط للبادئات. أجرى البحث اختبارًا باستخدام نموذج هجين داخلي بقدرة 1 تيرابايت (مبني على بنية Kimi Linear)، وحقق أداءً أعلى بنسبة 54% من نشر PD المتماثل، و32% أعلى من الحلول غير المتجانسة البسيطة، مع استهلاك عرض النطاق الترددي عبر مراكز البيانات بشكل معتدل لكل آلة. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • 1
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
GateUser-57ab9c02
· منذ 2 س
طلب قصير لتركه محليًا أمر معقول، لتجنب المبالغة في الأمور الصغيرة
شاهد النسخة الأصليةرد0
Cream-ColoredCross-ChainBridge
· منذ 2 س
الأنظمة غير المهيكلة البسيطة يمكن أن تتفوق بنسبة 32٪، والفجوة في البنية التحتية كبيرة
شاهد النسخة الأصليةرد0
CandleSitter
· منذ 2 س
أصبح فصل PD يلعب بمستوى جديد
شاهد النسخة الأصليةرد0
MidnightReconciler
· منذ 2 س
الجانب المظلم للقمر يمكن أن يكون هذا التدفق التقني
شاهد النسخة الأصليةرد0
WatercolorGlassBottle
· منذ 3 س
شرح جدولة الوعي بالنطاق الترددي أنهم حقًا وقعوا في مشاكل
شاهد النسخة الأصليةرد0
MistValleySignpost
· منذ 3 س
كيف تم تصميم آلية مزامنة استرجاع البيانات المشفرة؟
شاهد النسخة الأصليةرد0
SeaSaltMintCandy
· منذ 3 س
أشعر بأنها ودودة جدًا مع سيناريوهات السياق الطويل
شاهد النسخة الأصليةرد0
  • مُثبت