وفقًا لمراقبة 1M AI News، أطلقت أداة برمجة الذكاء الاصطناعي Cursor مدونة تقنية تقدم طريقة تسريع الاستدلال MoE (Mixture of Experts) المطوّرة ذاتيًا لديها، Warp Decode. تستهدف هذه الطريقة سيناريوهات توليد الرموز بحزم صغيرة على وحدة معالجة الرسومات NVIDIA Blackwell، إذ تُبدّل استراتيجية التوازي التقليدية المتمحورة حول الخبراء إلى نهج متمحور حول المخرجات: كل «warp» (أصغر وحدة جدولة مكوّنة من 32 وحدة معالجة متوازية) على وحدة معالجة الرسومات يُكلَّف بحساب قيمة إخراج واحدة، مع اجتياز مستقل لجميع الخبراء المُوجَّهين، وإنجاز التراكم في السجلات دون أي تزامن بين الـ warps أو مخازن وسيطة. يتكوّن خط الاستدلال التقليدي لـ MoE من 8 مراحل، 5 منها مخصصة فقط لنقل البيانات لعرض الخبراء دون إجراء حسابات فعلية. يضغط Warp Decode طبقة حساب MoE بالكامل إلى نَوَتين CUDA، مُزيلًا الخطوات الوسيطة مثل الحشو (padding)، والتشتيت (scattering)، والدمج (merging)، مما يقلل قراءة/كتابة الذاكرة المؤقتة الوسيطة بأكثر من 32KB لكل رمز. عند الاختبار على وحدة GPU NVIDIA B200 باستخدام نموذج على نمط Qwen-3، حقق Warp Decode تحسينًا في إنتاجية فك الترميز بنهاية إلى نهاية قدره 1.84x، وإذ تم إجراء الحساب بالكامل بدقة BF16/FP32، فقد تجنب خسارة القياس (quantization) الوسيطة، ما أدى إلى دقة إخراج أقرب بمقدار 1.4 مرة إلى معيار FP32 مقارنةً بالمسارات التقليدية. من حيث استغلال عرض النطاق الترددي للعتاد (hardware bandwidth)، ومع حجم دفعة قدره 32، حافظ على إنتاجية بلغت 3.95 TB/s، أي ما يقارب 58% من عرض النطاق الترددي الأقصى لـ B200 (6.8 TB/s). يسرّع هذا التحسين بشكل مباشر وتيرة التطوير وتحديثات إصدار الإصدارات لِـ Composer، نموذج البرمجة المطوّر ذاتيًا من Cursor.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
SKHynixTopsKOSPIByMarketCap
393.82K درجة الشعبية
#
EthereumFoundationRestructuresForEfficiency
94.25M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
62.41K درجة الشعبية
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
251.84K درجة الشعبية
#
TradFiCFDGoldMaster
2.17M درجة الشعبية

مُثبت

خريطة الموقع

Cursor تكشف عن تقنية تحسين استنتاج MoE Warp Decode، محققة زيادة في الإنتاجية بمقدار 1.84 ضعف على وحدة معالجة الرسومات Blackwell

المواضيع الرائجة

SKHynixTopsKOSPIByMarketCap

EthereumFoundationRestructuresForEfficiency

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

TradFiCFDGoldMaster

مُثبت