الجانب المظلم للقمر والأبحاث الجديدة من جامعة تسينغهوا: يمكن لملء النموذج المسبق لـ LLM أن يتجاوز مراكز البيانات، وزيادة قدرة المعالجة لنموذج 1 تيرابايت بنسبة 54%

robot
إنشاء الملخص قيد التقدم
أخبار ME News، في 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، نشرت Moonshot AI مع جامعة Tsinghua في 16 أبريل ورقة بحثية جديدة على arXiv بعنوان «Prefill-as-a-Service»، اقترحت فيها تشغيل مرحلة التعبئة المسبقة (prefill) لنموذج كبير عبر مراكز البيانات. تتكون استنتاجات النموذج الكبير من خطوتين: أولاً، يقوم بقراءة الإدخال مرة واحدة وتوليد ذاكرة تخزين مؤقتة من زوج المفاتيح والقيم (KV)؛ ثم، ثانيًا، يقوم بالترميز (decode) بإخراج النتائج كلمة بكلمة استنادًا إلى هذه الذاكرة المؤقتة. تتطلب الخطوتان خصائص أجهزة مختلفة تمامًا، حيث تستهلك مرحلة التعبئة الحوسبة، بينما تستهلك مرحلة الترميز الذاكرة ووحدة عرض النطاق الترددي للذاكرة. النهج السائد في الصناعة هو فصل الخطوتين على آلات مختلفة (فصل PD)، لكن ذلك يتطلب اتصال RDMA بين الطرفين داخل نفس مركز البيانات، لأن ذاكرة KV لنماذج الانتباه المكثف تُخرج بسرعة عشرات Gbps في الثانية، وإذا تباطأ النقل، فإن وحدة المعالجة الرسومية (GPU) ستتوقف عن العمل. يأتي التحول من خلال نموذج الانتباه الهجين من الجيل الجديد. أظهرت الاختبارات أن نماذج مثل Kimi Linear و MiMo-V2-Flash و Ring-2.5-1T، من خلال دمج عدد قليل من طبقات الانتباه الكاملة مع العديد من الطبقات الخطية، قللت من خلال ذاكرة KV بمقدار حوالي رتبة واحدة، وبلغت نسبة الضغط الشاملة لنموذج Ring-2.5-1T 36 مرة. في هذه الحالة، يمكن نقل ذاكرة KV من شبكة خاصة تعتمد على RDMA إلى شبكة إيثرنت عادية للتحميل. النهج المحدد لـ PrfaaS هو إنشاء «عنقود تعبئة مسبقة» مستقل، يوجه الطلبات ذات السياق الطويل، والطلبات غير الموجودة في الذاكرة المؤقتة للبادئة غير المكتملة، إلى هناك، بينما تبقى الطلبات القصيرة محلية في عنقود PD؛ بعد الانتهاء من التعبئة المسبقة، يتم إعادة إرسال ذاكرة KV عبر الإيثرنت إلى العنقود المحلي لإجراء الترميز. كما يتم إدخال فاصل طول الحد، ومنظم جدولة حساس للنطاق الترددي، ومخزن ذاكرة بادئة مختلط. أجرى الباحثون اختبارًا باستخدام نموذج هجين داخلي بقدرة 1 تيرابايت (مبني على بنية Kimi Linear)، ووجدوا أن الأداء الإجمالي أعلى بنسبة 54% من نشر PD المتماثل، وأعلى بنسبة 32% من الحلول غير المتجانسة البسيطة، مع استهلاك عرض النطاق الترددي بين مراكز البيانات بشكل معتدل لكل جهاز. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 8
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
SlippageSailor
· منذ 1 س
اسم PrfaaS، مدير المنتج هو من يفهم فن اختيار الأسماء
شاهد النسخة الأصليةرد0
ExitLiquidityPoet
· منذ 5 س
عندما لا يتم استهداف السياق الطويل، يتم الانتقال عن بُعد، والمعالجة المحلية للطلبات القصيرة، هذه استراتيجية التوجيه دقيقة جدًا
شاهد النسخة الأصليةرد0
MetalReliefRoboticArm
· منذ 6 س
تصميم تجربة المقارنة بين PD المتماثل مقابل غير المتماثل مقابل PrfaaS نظيف جدًا
شاهد النسخة الأصليةرد0
StopMessingAroundWithGasFees.
· منذ 6 س
نموذج بمعاملات تريليون حقيقي الاختبار، الجرأة على تشغيل نموذج بهذا الحجم، الثقة كافية
شاهد النسخة الأصليةرد0
GateUser-4590f4c6
· منذ 6 س
هل ستصبح التعبئة المسبقة خدمة تُباع، وهل ستظهر في المستقبل تعبئة مسبقة جاهزة للاستخدام الفوري؟
شاهد النسخة الأصليةرد0
MoonlightDisconnectSwitch
· منذ 6 س
بعد قراءة المقال بالكامل، أكثر ما يهمني هو معرفة مدى تحمل معدل فقدان الحزم عند النشر الفعلي
شاهد النسخة الأصليةرد0
GlassDomeRoaming
· منذ 6 س
جدولة الوعي بالسعة، ببساطة يعني إذا كنت فقيرًا فكر في التغيير، وإذا كانت الشبكة غالية فعليك أن تخطط بدقة
شاهد النسخة الأصليةرد0
GlassFishTankArbitrage
· منذ 6 س
تخزين KV عبر الشبكة المحلية، كنت أعتقد أنه جنونًا من قبل، والآن أصبح موضوعًا في ورقة بحثية
شاهد النسخة الأصليةرد0
  • مُثبت