الجانب المظلم للقمر والأبحاث الجديدة من جامعة تسينغهوا: يمكن لملء النموذج المسبق في نماذج اللغة الكبيرة أن يتجاوز مراكز البيانات، وزيادة قدرة المعالجة لنموذج 1 تيرابايت بنسبة 54%

robot
إنشاء الملخص قيد التقدم
أخبار ME News، في 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، نشرت Moonshot AI مع جامعة Tsinghua في 16 أبريل ورقة بحثية جديدة على arXiv بعنوان «Prefill-as-a-Service»، تقترح تشغيل مرحلة التهيئة المسبقة (prefill) لنموذج كبير عبر مراكز البيانات. تتكون استنتاجات النموذج الكبير من خطوتين: أولاً التهيئة المسبقة حيث يتم قراءة الإدخال مرة واحدة وتوليد ذاكرة تخزين مؤقتة من القيم والمفاتيح (KV)، ثم التفسير حيث يتم إخراج النتائج كلمة بكلمة استنادًا إلى هذه الذاكرة المؤقتة. تتطلب الخطوتان خصائص أجهزة مختلفة تمامًا، حيث تستهلك التهيئة المسبقة قوة حسابية، بينما يستهلك التفسير ذاكرة الفيديو وعرض النطاق الترددي. الممارسة السائدة في الصناعة هي فصل الخطوتين على آلات مختلفة (فصل PD)، لكن هذا يتطلب اتصال RDMA بين الطرفين داخل نفس مركز البيانات، لأن ذاكرة KV لنماذج الانتباه المركزة تُخرج بسرعة عشرات Gbps في الثانية، وإذا كانت النقل بطيئًا، فإن وحدة GPU تتوقف عن العمل. يأتي التحول من خلال نموذج الانتباه الهجين من الجيل الجديد. أظهرت الاختبارات أن نماذج مثل Kimi Linear و MiMo-V2-Flash و Ring-2.5-1T، من خلال مجموعة صغيرة من طبقات الانتباه الكاملة ودمجها مع العديد من الطبقات الخطية، قللت من خلال ذاكرة KV المؤقتة بمقدار حوالي رتبة واحدة، حيث وصل معدل الضغط الكلي لـ Ring-2.5-1T إلى 36 ضعفًا. في هذه الحالة، يمكن نقل ذاكرة KV من شبكة RDMA الخاصة إلى شبكة إيثرنت العادية للتحميل. النهج الخاص بـ PrfaaS يتضمن إنشاء «عنقود تهيئة مسبقة» مستقل، حيث يتم توجيه الطلبات ذات السياقات الطويلة والطلبات غير المكتملة إلى هناك، بينما تظل الطلبات القصيرة محلية في عنقود PD؛ بعد الانتهاء من التهيئة المسبقة، يتم إعادة إرسال ذاكرة KV عبر الإيثرنت إلى العنقود المحلي لإجراء التفسير. كما يتم إدخال آليات توجيه تعتمد على عتبة الطول، ومنظّم جدولة يعتمد على عرض النطاق الترددي، ومخزن ذاكرة مؤقتة مختلط للبادئات. أجرى البحث تجارب باستخدام نموذج هجين داخلي بقدرة 1 تيرابايت (مبني على بنية Kimi Linear)، وأظهرت النتائج أن الأداء الإجمالي أعلى بنسبة 54% من نشر PD المتماثل، وأعلى بنسبة 32% من الحلول غير المتجانسة البسيطة، مع استهلاك عرض النطاق الترددي بين مراكز البيانات بشكل معتدل لكل جهاز. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 10
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
RocksUnderTheAurora
· منذ 1 س
تشانغ هوا + الجانب المظلم للقمر، النموذج الكبير المحلي للبنية التحتية يشارك في المؤتمرات الدولية المرموقة
شاهد النسخة الأصليةرد0
YieldNotYell
· منذ 5 س
تصميم توجيه حد الطول دقيق جدًا، ومعالجة الطلبات الطويلة والقصيرة بشكل منفصل هو التحسين الصحيح
شاهد النسخة الأصليةرد0
CircuitDaydreamer
· منذ 8 س
قراءة متعمقة لمقالة حول نموذج الانتباه المختلط يقلل من استهلاك ذاكرة التخزين المؤقتة للكي-القيمة، والتفاصيل التقنية وغيرها
شاهد النسخة الأصليةرد0
AirdropCartographer
· منذ 9 س
ارتفاع بنسبة 54% فعلاً رائع، لكن كيف نتعامل مع الاهتزاز عند الانتقال عبر مراكز البيانات باستخدام الإيثرنت؟
شاهد النسخة الأصليةرد0
DeepSeaColdStart
· منذ 9 س
طلبات التوجيه غير الموجودة، أصبحت نسبة نجاح التخزين المؤقت هي العقبة الرئيسية
شاهد النسخة الأصليةرد0
UnderTheGlassDome
· منذ 9 س
مقارنة PD المتماثل مقابل PD غير المتماثل مقابل PrfaaS، هذا التحديد في الأبعاد ذكي جدًا
شاهد النسخة الأصليةرد0
BluePeonyCalmingAgent
· منذ 10 س
اختبار نموذج بمعاملات تريليون، لا يمكن تصور تكلفة الأجهزة
شاهد النسخة الأصليةرد0
GateUser-fb035825
· منذ 10 س
نشر مجموعة التعبئة المسبقة بشكل مستقل، زادت من تعقيد الصيانة والإدارة، هل الفوائد تستحق ذلك؟
شاهد النسخة الأصليةرد0
IdleFishDaoMember
· منذ 10 س
جدولة الوعي بالنطاق الترددي تبدو بسيطة، لكن التنفيذ الفعلي يتوقع أن يواجه العديد من المشاكل
شاهد النسخة الأصليةرد0
GateUser-aa277334
· منذ 10 س
هذه الفكرة مثيرة للاهتمام، قم بإرسال التعبئة المسبقة إلى الطرف البعيد، وركز المحلي على فك الترميز، هل يمكنها تحمل التأخير؟
شاهد النسخة الأصليةرد0
عرض المزيد
  • مُثبت