العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
منصة الإطلاق
كن من الأوائل في الانضمام إلى مشروع التوكن الكبير القادم
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
Cursor تكشف عن تقنية تحسين استنتاج MoE العامة Warp Decode، وزيادة في الإنتاجية على GPU Blackwell بمقدار 1.84 مرة
وفقًا لمتابعة 1M AI News، نشرت أداة برمجة الذكاء الاصطناعي Cursor تدوينة تقنية تُعرّف بطريقة تسريع الاستدلال لديها باستخدام أسلوب MoE (نموذج الخبراء المختلط) المطوّر داخليًا، والمعروف باسم Warp Decode. تُوجَّه هذه الطريقة إلى سيناريو توليد tokens بكميات صغيرة على وحدات معالجة الرسوميات Nvidia Blackwell GPU، حيث تُقلب الاستراتيجية التقليدية التي تركز على الخبراء إلى استراتيجية تركز على المخرجات: في كل warp داخل الـ GPU (وهي أصغر وحدة جدولة تتكوّن من 32 وحدة معالجة متوازية)، يُكلَّف فقط بحساب قيمة إخراج واحدة، مع اجتياز مستقل لجميع الخبراء الذين تمت عملية توجيههم إليهم وإجراء عملية التجميع (accumulation) مباشرة داخل السجلات، دون الحاجة إلى أي مزامنة عبر الـ warp أو استخدام مخازن وسيطة.
تتكوّن خط أنابيب الاستدلال التقليدي لـ MoE من 8 مراحل، منها 5 مراحل فقط لنقل البيانات لواجهات الخبراء (expert views) دون تنفيذ أي حسابات فعلية. تُحوِّل Warp Decode كامل طبقة حساب MoE إلى نواتين من نوع CUDA kernels فقط، ما يُلغي الخطوات الوسيطة مثل الحشو (padding) والتفريق (dispersing) والدمج (merging)، ويُقلِّل عمليات قراءة/كتابة مخازن وسيطة لكل token بأكثر من 32KB.
على وحدات Nvidia B200 GPU، وبالاختبار العملي باستخدام نموذج على نمط Qwen-3، حققت Warp Decode زيادة قدرها 1.84 مرة في إنتاجية فك الترميز من طرف إلى طرف، كما أن دقة المخرجات مقارنة بالمسار التقليدي اقتربت من معيار FP32 بمقدار 1.4 مرة، وذلك لأن الحساب تم طوال الوقت بدقة BF16/FP32 وتُجنِّب خسائر ناتجة عن التكميم للأحجام/الكمّيات الوسيطة. ومن حيث استغلال عرض النطاق الترددي للعتاد، وعند حجم دفعة (batch size) يساوي 32، بلغ معدل الإنتاجية المستمر 3.95 TB/s، أي نحو 58% من أقصى عرض نطاق ترددي للـ B200 (6.8 TB/s). يُسرِّع هذا التحسين مباشرةً عملية تطوير نموذج برمجة Cursor الخاص Composer وتيرة التكرار في البحث والتطوير وإيقاع إصدار الإصدارات.