الجانب المظلم للقمر والأبحاث الجديدة من جامعة تسينغهوا: يمكن لملء النموذج المسبق في نماذج اللغة الكبيرة أن يتجاوز مراكز البيانات، وزيادة قدرة المعالجة لنموذج 1 تيرابايت بنسبة 54%

robot
إنشاء الملخص قيد التقدم
أخبار ME، 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، نشرت Moonshot AI مع جامعة Tsinghua في 16 أبريل ورقة بحثية جديدة على arXiv بعنوان «Prefill-as-a-Service»، تقترح تشغيل مرحلة التعبئة المسبقة (prefill) لنموذج كبير عبر مراكز البيانات. تتكون استنتاجات النموذج الكبير من خطوتين: أولاً، يقوم بقراءة الإدخال مرة واحدة وتوليد ذاكرة تخزين مؤقتة من زوج المفاتيح والقيم (KV)؛ ثم، يقوم بعملية فك التشفير (decode) بإخراج النتائج كلمة بكلمة استنادًا إلى هذه الذاكرة المؤقتة. تتطلب الخطوتان خصائص أجهزة مختلفة تمامًا، حيث تستهلك مرحلة التعبئة الحسابات، وتستهلك عملية فك التشفير الذاكرة ووصلات النطاق الترددي للذاكرة. الممارسة السائدة في الصناعة هي فصل الخطوتين على آلات مختلفة (فصل PD)، لكن ذلك يتطلب اتصال RDMA بين الطرفين داخل نفس مركز البيانات، لأن ذاكرة KV لنماذج الانتباه المكثف تُخرج بسرعة عشرات Gbps في الثانية، وإذا كانت النقل بطيئًا، فإن وحدة GPU تتوقف عن العمل. يأتي التحول من خلال نموذج الانتباه الهجين من الجيل الجديد. أظهرت الاختبارات أن نماذج مثل Kimi Linear و MiMo-V2-Flash و Ring-2.5-1T، من خلال دمج عدد قليل من طبقات الانتباه الكاملة مع العديد من الطبقات الخطية، قللت من خلال ذاكرة KV بمقدار حوالي رتبة واحدة، وبلغت نسبة الضغط الإجمالية لـ Ring-2.5-1T 36 مرة. في هذه الحالة، يمكن نقل ذاكرة KV من شبكة خاصة تعتمد على RDMA إلى شبكة إيثرنت عادية للتحميل. النهج الخاص بـ PrfaaS يتضمن إنشاء «عنقود تعبئة مسبقة» مستقل، يوجه الطلبات ذات السياق الطويل والطلبات التي لم يتم استيفاؤها من خلال التخزين المؤقت للبادئات غير الموجودة، بينما تبقى الطلبات القصيرة محلية في عنقود PD؛ بعد إكمال التعبئة المسبقة، يتم إرسال ذاكرة KV عبر الإيثرنت إلى العنقود المحلي لإجراء عملية فك التشفير. كما يتم إدخال آليات توجيه تعتمد على عتبة الطول، ومنظم جدولة يعتمد على عرض النطاق الترددي، ومخزن مؤقت مختلط للبادئات. أجرى البحث تجارب باستخدام نموذج هجين داخلي بقدرة 1 تيرابايت (مبني على بنية Kimi Linear)، وأظهرت النتائج أن معدل الخدمة الإجمالي كان أعلى بنسبة 54% من نشر PD المتماثل، وأعلى بنسبة 32% من الحلول غير المتجانسة البسيطة، مع استهلاك عرض نطاق ترددي متوسط عبر مراكز البيانات لكل جهاز. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 6
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
DewdropSapling
· منذ 27 د
هل سيتوفر في المستقبل خدمة فك التشفير كخدمة بعد تسمية PrfaaS؟
شاهد النسخة الأصليةرد0
InstantNoodle-LevelResearcher
· منذ 1 س
تشانغوا + الجانب المظلم للقمر، بدأ البنية التحتية للنماذج الكبيرة المحلية تتنافس في اتجاه جديد
شاهد النسخة الأصليةرد0
LateBlockLarry
· منذ 1 س
ارتفع بنسبة 54% يبدو مغريًا، لكن التنفيذ الفعلي يتطلب مراعاة العزل متعدد المستأجرين واستعادة الأعطال
شاهد النسخة الأصليةرد0
MempoolMaggie
· منذ 1 س
تخزين KV عبر Ethernet، هل تعتبر تكلفة النطاق الترددي أغلى من قوة الحوسبة؟
شاهد النسخة الأصليةرد0
MintLiquidationWarning
· منذ 2 س
فقط التوجيه الطويل للسياق لم يتم المطابقة، والطلب القصير يُترك محليًا، هذه الاستراتيجية التصنيفية عملية جدًا.
شاهد النسخة الأصليةرد0
GateUser-2100b43b
· منذ 2 س
نموذج الانتباه المختلط يقلل من استهلاك ذاكرة التخزين المؤقتة لـ KV، هذا النهج يذكرني ببعض الحيل في التدريب الموزع المبكر
شاهد النسخة الأصليةرد0
  • مُثبت