العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
Cursor تكشف عن تقنية تحسين استنتاج MoE Warp Decode، محققة زيادة في الإنتاجية بمقدار 1.84 ضعف على وحدة معالجة الرسومات Blackwell
وفقًا لمراقبة 1M AI News، أطلقت أداة برمجة الذكاء الاصطناعي Cursor مدونة تقنية تقدم طريقة تسريع الاستدلال MoE (Mixture of Experts) المطوّرة ذاتيًا لديها، Warp Decode. تستهدف هذه الطريقة سيناريوهات توليد الرموز بحزم صغيرة على وحدة معالجة الرسومات NVIDIA Blackwell، إذ تُبدّل استراتيجية التوازي التقليدية المتمحورة حول الخبراء إلى نهج متمحور حول المخرجات: كل «warp» (أصغر وحدة جدولة مكوّنة من 32 وحدة معالجة متوازية) على وحدة معالجة الرسومات يُكلَّف بحساب قيمة إخراج واحدة، مع اجتياز مستقل لجميع الخبراء المُوجَّهين، وإنجاز التراكم في السجلات دون أي تزامن بين الـ warps أو مخازن وسيطة. يتكوّن خط الاستدلال التقليدي لـ MoE من 8 مراحل، 5 منها مخصصة فقط لنقل البيانات لعرض الخبراء دون إجراء حسابات فعلية. يضغط Warp Decode طبقة حساب MoE بالكامل إلى نَوَتين CUDA، مُزيلًا الخطوات الوسيطة مثل الحشو (padding)، والتشتيت (scattering)، والدمج (merging)، مما يقلل قراءة/كتابة الذاكرة المؤقتة الوسيطة بأكثر من 32KB لكل رمز. عند الاختبار على وحدة GPU NVIDIA B200 باستخدام نموذج على نمط Qwen-3، حقق Warp Decode تحسينًا في إنتاجية فك الترميز بنهاية إلى نهاية قدره 1.84x، وإذ تم إجراء الحساب بالكامل بدقة BF16/FP32، فقد تجنب خسارة القياس (quantization) الوسيطة، ما أدى إلى دقة إخراج أقرب بمقدار 1.4 مرة إلى معيار FP32 مقارنةً بالمسارات التقليدية. من حيث استغلال عرض النطاق الترددي للعتاد (hardware bandwidth)، ومع حجم دفعة قدره 32، حافظ على إنتاجية بلغت 3.95 TB/s، أي ما يقارب 58% من عرض النطاق الترددي الأقصى لـ B200 (6.8 TB/s). يسرّع هذا التحسين بشكل مباشر وتيرة التطوير وتحديثات إصدار الإصدارات لِـ Composer، نموذج البرمجة المطوّر ذاتيًا من Cursor.