Cursor تكشف عن تقنية تحسين استنتاج MoE العامة Warp Decode، وزيادة في الإنتاجية على GPU Blackwell بمقدار 1.84 مرة

BlockBeatNews · 2026-04-07T01:21:09+00:00

قام Cursor بنشر مدونة تقنية جديدة تشرح طريقة تسريع استنتاج MoE الخاصة بها Warp Decode، والتي قامت بتحسين توليد الرموز بكميات صغيرة على وحدة معالجة الرسومات NVIDIA Blackwell، مما يقلل من عمليات القراءة والكتابة للذاكرة الوسيطة، ويزيد من معدل المعالجة ودقة الإخراج، مما يسرع بشكل مباشر عملية تطوير نموذج البرمجة الخاص بها.

BlockBeatNews

2026-04-07 01:21:09

إنشاء الملخص قيد التقدم

وفقًا لمتابعة 1M AI News، نشرت أداة برمجة الذكاء الاصطناعي Cursor تدوينة تقنية تُعرّف بطريقة تسريع الاستدلال لديها باستخدام أسلوب MoE (نموذج الخبراء المختلط) المطوّر داخليًا، والمعروف باسم Warp Decode. تُوجَّه هذه الطريقة إلى سيناريو توليد tokens بكميات صغيرة على وحدات معالجة الرسوميات Nvidia Blackwell GPU، حيث تُقلب الاستراتيجية التقليدية التي تركز على الخبراء إلى استراتيجية تركز على المخرجات: في كل warp داخل الـ GPU (وهي أصغر وحدة جدولة تتكوّن من 32 وحدة معالجة متوازية)، يُكلَّف فقط بحساب قيمة إخراج واحدة، مع اجتياز مستقل لجميع الخبراء الذين تمت عملية توجيههم إليهم وإجراء عملية التجميع (accumulation) مباشرة داخل السجلات، دون الحاجة إلى أي مزامنة عبر الـ warp أو استخدام مخازن وسيطة.

تتكوّن خط أنابيب الاستدلال التقليدي لـ MoE من 8 مراحل، منها 5 مراحل فقط لنقل البيانات لواجهات الخبراء (expert views) دون تنفيذ أي حسابات فعلية. تُحوِّل Warp Decode كامل طبقة حساب MoE إلى نواتين من نوع CUDA kernels فقط، ما يُلغي الخطوات الوسيطة مثل الحشو (padding) والتفريق (dispersing) والدمج (merging)، ويُقلِّل عمليات قراءة/كتابة مخازن وسيطة لكل token بأكثر من 32KB.

على وحدات Nvidia B200 GPU، وبالاختبار العملي باستخدام نموذج على نمط Qwen-3، حققت Warp Decode زيادة قدرها 1.84 مرة في إنتاجية فك الترميز من طرف إلى طرف، كما أن دقة المخرجات مقارنة بالمسار التقليدي اقتربت من معيار FP32 بمقدار 1.4 مرة، وذلك لأن الحساب تم طوال الوقت بدقة BF16/FP32 وتُجنِّب خسائر ناتجة عن التكميم للأحجام/الكمّيات الوسيطة. ومن حيث استغلال عرض النطاق الترددي للعتاد، وعند حجم دفعة (batch size) يساوي 32، بلغ معدل الإنتاجية المستمر 3.95 TB/s، أي نحو 58% من أقصى عرض نطاق ترددي للـ B200 (6.8 TB/s). يُسرِّع هذا التحسين مباشرةً عملية تطوير نموذج برمجة Cursor الخاص Composer وتيرة التكرار في البحث والتطوير وإيقاع إصدار الإصدارات.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2