الجانب المظلم للقمر والأبحاث الجديدة من جامعة تسينغهوا: يمكن لملء النموذج المسبق في نماذج اللغة الكبيرة أن يتجاوز مراكز البيانات، وزيادة قدرة المعالجة لنموذج 1 تيرابايت بنسبة 54%

robot
إنشاء الملخص قيد التقدم

أخبار ME News، في 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، نشرت Moonshot AI مع جامعة Tsinghua في 16 أبريل ورقة بحثية جديدة على arXiv بعنوان «Prefill-as-a-Service»، اقترحت فيها تشغيل مرحلة التعبئة المسبقة (prefill) لنموذج كبير عبر مراكز البيانات. تتكون استنتاجات النموذج الكبير من خطوتين: أولاً، يقوم بقراءة الإدخال مرة واحدة وتوليد ذاكرة تخزين مؤقتة من زوج المفاتيح والقيم (KV)؛ ثم، ثانيًا، يقوم بالترميز (decode) بإخراج النتائج كلمة بكلمة استنادًا إلى هذه الذاكرة المؤقتة. تتطلب الخطوتان خصائص أجهزة مختلفة تمامًا، حيث تستهلك مرحلة التعبئة الحسابات، بينما تستهلك مرحلة الترميز الذاكرة ووحدة عرض النطاق الترددي للذاكرة. الممارسة السائدة في الصناعة هي فصل الخطوتين على آلات مختلفة (فصل PD)، لكن ذلك يتطلب اتصال RDMA بين الطرفين داخل نفس مركز البيانات، لأن ذاكرة KV لنماذج الانتباه المركزة تُخرج بسرعة عشرات Gbps في الثانية، وإذا كانت سرعة النقل بطيئة، فإن وحدة معالجة الرسومات (GPU) ستتوقف عن العمل.

أما التحول فيأتي من جيل جديد من نماذج الانتباه الهجينة. أظهرت الاختبارات أن نماذج مثل Kimi Linear و MiMo-V2-Flash و Ring-2.5-1T، من خلال دمج عدد قليل من طبقات الانتباه الكاملة مع العديد من الطبقات الخطية، قللت من خلال معدل النقل لذاكرة KV بمقدار حوالي رتبة واحدة، وحقق نموذج Ring-2.5-1T نسبة ضغط إجمالية تصل إلى 36 ضعفًا. في هذه الحالة، يمكن نقل ذاكرة KV من شبكة خاصة تعتمد على RDMA إلى شبكة إيثرنت عادية للتحميل.

النهج المحدد لـ PrfaaS هو إنشاء «عنقود تعبئة مسبقة» مستقل، يوجه الطلبات التي تحتوي على سياقات طويلة أو طلبات غير مكتملة إلى هناك، بينما تبقى الطلبات القصيرة محلية في عنقود PD؛ بعد إتمام التعبئة المسبقة، يتم إعادة إرسال ذاكرة KV عبر الإيثرنت إلى العنقود المحلي لإجراء عملية الترميز. كما يتم إدخال فاصل طول الطلب، ومنظم جدولة يعتمد على عرض النطاق الترددي، ومخزن ذاكرة مؤقتة مختلطة للسلاسل.

استخدمت الورقة نموذجًا هجينًا داخليًا بقدرة 1 تيرابايت (مبنيًا على بنية Kimi Linear) لإجراء مجموعة من الاختبارات، وأظهرت أن الأداء الإجمالي للخدمة كان أعلى بنسبة 54% من نشر PD المتماثل، وأعلى بنسبة 32% من الحلول غير المتجانسة البسيطة، مع استهلاك عرض النطاق الترددي عبر مراكز البيانات بشكل معتدل لكل جهاز.

(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 9
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
VolatilityOfToastingBread
· منذ 1 س
طلب قصير لترك البيانات المحلية أمر معقول، فالأمر حساس للتاخير، فقط السياق الطويل يستحق العناء
شاهد النسخة الأصليةرد0
DustCollector
· منذ 3 س
الزيادة في التحسين غير المتماثل البسيط بنسبة 32٪، والزيادة في PD المتماثل بنسبة 54٪، وتم إعداد مجموعة المقارنة بشكل متين.
شاهد النسخة الأصليةرد0
Glass-HeartMarketMaker
· منذ 3 س
تشانغوا + الجانب المظلم للقمر، بدأ البنية التحتية للنماذج الكبيرة المحلية تتنافس لتصل إلى الصف الأول عالميًا
شاهد النسخة الأصليةرد0
StainedGlassSolarArray
· منذ 3 س
تلك الحركة من 月暗 كانت مثيرة للاهتمام، قم بإخراج التعبئة المسبقة، وركز على فك الترميز محليًا، مما يحقق توازنًا بين التأخير والتكلفة.
شاهد النسخة الأصليةرد0
MirrorBallReflection
· منذ 4 س
نموذج الانتباه المختلط هو الجوهر، يمكن لذاكرة KV أن تنتقل عبر شبكة الإيثريوم، كم ستكون نسبة الضغط عالية جدًا
شاهد النسخة الأصليةرد0
PineNeedlesAndColdWind
· منذ 4 س
جدولة الوعي بالنطاق الترددي تبدو بسيطة، لكن التنفيذ الفعلي مليء بالمشاكل، لقد تمكنوا من إنجازه بالفعل
شاهد النسخة الأصليةرد0
GoldfishUnderTheIce
· منذ 4 س
تم تشغيل نموذج بمعاملات تريليون، مما يدل على أن بنية هذا النظام قابلة للتوسع بشكل جيد، وليست مجرد محاولة صغيرة.
شاهد النسخة الأصليةرد0
MarginMoth
· منذ 4 س
تم تسمية PrfaaS بهذا الاسم، وهو اختصار لـ Prefill as a Service، وتم نقل مجموعة الحوسبة السحابية إلى استنتاج النماذج الكبيرة.
شاهد النسخة الأصليةرد0
GateUser-78acf617
· منذ 4 س
54% زيادة في الأداء، هذه البيانات تبدو مريحة، والهياكل غير المتجانسة لم تعد مجرد حبر على ورق
شاهد النسخة الأصليةرد0
عرض المزيد
  • مُثبت