أخبار ME، 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، نشرت Moonshot AI مع جامعة Tsinghua في 16 أبريل ورقة بحثية جديدة على arXiv بعنوان «Prefill-as-a-Service»، تقترح تشغيل مرحلة التعبئة المسبقة (prefill) لنموذج كبير عبر مراكز البيانات. تتكون استنتاجات النموذج الكبير من خطوتين: أولاً، يقوم بقراءة الإدخال مرة واحدة وتوليد ذاكرة تخزين مؤقتة من زوج المفاتيح والقيم (KV)؛ ثم، يقوم بعملية فك التشفير (decode) بإخراج النتائج كلمة بكلمة استنادًا إلى هذه الذاكرة المؤقتة. تتطلب الخطوتان خصائص أجهزة مختلفة تمامًا، حيث تستهلك مرحلة التعبئة الحسابات، وتستهلك عملية فك التشفير الذاكرة ووصلات النطاق الترددي للذاكرة. الممارسة السائدة في الصناعة هي فصل الخطوتين على آلات مختلفة (فصل PD)، لكن ذلك يتطلب اتصال RDMA بين الطرفين داخل نفس مركز البيانات، لأن ذاكرة KV لنماذج الانتباه المكثف تُخرج بسرعة عشرات Gbps في الثانية، وإذا كانت النقل بطيئًا، فإن وحدة GPU تتوقف عن العمل. يأتي التحول من خلال نموذج الانتباه الهجين من الجيل الجديد. أظهرت الاختبارات أن نماذج مثل Kimi Linear و MiMo-V2-Flash و Ring-2.5-1T، من خلال دمج عدد قليل من طبقات الانتباه الكاملة مع العديد من الطبقات الخطية، قللت من خلال ذاكرة KV بمقدار حوالي رتبة واحدة، وبلغت نسبة الضغط الإجمالية لـ Ring-2.5-1T 36 مرة. في هذه الحالة، يمكن نقل ذاكرة KV من شبكة خاصة تعتمد على RDMA إلى شبكة إيثرنت عادية للتحميل. النهج الخاص بـ PrfaaS يتضمن إنشاء «عنقود تعبئة مسبقة» مستقل، يوجه الطلبات ذات السياق الطويل والطلبات التي لم يتم استيفاؤها من خلال التخزين المؤقت للبادئات غير الموجودة، بينما تبقى الطلبات القصيرة محلية في عنقود PD؛ بعد إكمال التعبئة المسبقة، يتم إرسال ذاكرة KV عبر الإيثرنت إلى العنقود المحلي لإجراء عملية فك التشفير. كما يتم إدخال آليات توجيه تعتمد على عتبة الطول، ومنظم جدولة يعتمد على عرض النطاق الترددي، ومخزن مؤقت مختلط للبادئات. أجرى البحث تجارب باستخدام نموذج هجين داخلي بقدرة 1 تيرابايت (مبني على بنية Kimi Linear)، وأظهرت النتائج أن معدل الخدمة الإجمالي كان أعلى بنسبة 54% من نشر PD المتماثل، وأعلى بنسبة 32% من الحلول غير المتجانسة البسيطة، مع استهلاك عرض نطاق ترددي متوسط عبر مراكز البيانات لكل جهاز. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 7

أعجبني
7
6
إعادة النشر
مشاركة

تعليق

إضافة تعليق

DewdropSapling

· منذ 27 د

هل سيتوفر في المستقبل خدمة فك التشفير كخدمة بعد تسمية PrfaaS؟

شاهد النسخة الأصليةرد0

InstantNoodle-LevelResearcher

· منذ 1 س

تشانغوا + الجانب المظلم للقمر، بدأ البنية التحتية للنماذج الكبيرة المحلية تتنافس في اتجاه جديد

شاهد النسخة الأصليةرد0

LateBlockLarry

· منذ 1 س

ارتفع بنسبة 54% يبدو مغريًا، لكن التنفيذ الفعلي يتطلب مراعاة العزل متعدد المستأجرين واستعادة الأعطال

شاهد النسخة الأصليةرد0

MempoolMaggie

· منذ 1 س

تخزين KV عبر Ethernet، هل تعتبر تكلفة النطاق الترددي أغلى من قوة الحوسبة؟

شاهد النسخة الأصليةرد0

MintLiquidationWarning

· منذ 2 س

فقط التوجيه الطويل للسياق لم يتم المطابقة، والطلب القصير يُترك محليًا، هذه الاستراتيجية التصنيفية عملية جدًا.

شاهد النسخة الأصليةرد0

GateUser-2100b43b

· منذ 2 س

نموذج الانتباه المختلط يقلل من استهلاك ذاكرة التخزين المؤقتة لـ KV، هذا النهج يذكرني ببعض الحيل في التدريب الموزع المبكر

شاهد النسخة الأصليةرد0

المواضيع الرائجة
عرض المزيد
#
WinGoldBarsWithGrowthPoints
1.21M درجة الشعبية
#
WTICrudeFallsBelow90Dollars
1.53M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
51.3K درجة الشعبية
#
StockTradingChallengeUpTo17000U
186.79K درجة الشعبية
#
USIranNegotiationGame
9.41M درجة الشعبية

مُثبت

خريطة الموقع

المواضيع الرائجة

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

مُثبت