العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
الجانب المظلم للقمر والأبحاث الجديدة من جامعة تسينغهوا: يمكن لملء النموذج المسبق في نماذج اللغة الكبيرة أن يتجاوز مراكز البيانات، وزيادة قدرة المعالجة لنموذج 1 تيرابايت بنسبة 54%
أخبار ME News، في 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، نشرت Moonshot AI مع جامعة Tsinghua في 16 أبريل ورقة بحثية جديدة على arXiv بعنوان «Prefill-as-a-Service»، اقترحت فيها تشغيل مرحلة التعبئة المسبقة (prefill) لنموذج كبير عبر مراكز البيانات. تتكون استنتاجات النموذج الكبير من خطوتين: أولاً، يقوم بقراءة الإدخال مرة واحدة وتوليد ذاكرة تخزين مؤقتة من زوج المفاتيح والقيم (KV)؛ ثم، ثانيًا، يقوم بالترميز (decode) بإخراج النتائج كلمة بكلمة استنادًا إلى هذه الذاكرة المؤقتة. تتطلب الخطوتان خصائص أجهزة مختلفة تمامًا، حيث تستهلك مرحلة التعبئة الحسابات، بينما تستهلك مرحلة الترميز الذاكرة ووحدة عرض النطاق الترددي للذاكرة. الممارسة السائدة في الصناعة هي فصل الخطوتين على آلات مختلفة (فصل PD)، لكن ذلك يتطلب اتصال RDMA بين الطرفين داخل نفس مركز البيانات، لأن ذاكرة KV لنماذج الانتباه المركزة تُخرج بسرعة عشرات Gbps في الثانية، وإذا كانت سرعة النقل بطيئة، فإن وحدة معالجة الرسومات (GPU) ستتوقف عن العمل.
أما التحول فيأتي من جيل جديد من نماذج الانتباه الهجينة. أظهرت الاختبارات أن نماذج مثل Kimi Linear و MiMo-V2-Flash و Ring-2.5-1T، من خلال دمج عدد قليل من طبقات الانتباه الكاملة مع العديد من الطبقات الخطية، قللت من خلال معدل النقل لذاكرة KV بمقدار حوالي رتبة واحدة، وحقق نموذج Ring-2.5-1T نسبة ضغط إجمالية تصل إلى 36 ضعفًا. في هذه الحالة، يمكن نقل ذاكرة KV من شبكة خاصة تعتمد على RDMA إلى شبكة إيثرنت عادية للتحميل.
النهج المحدد لـ PrfaaS هو إنشاء «عنقود تعبئة مسبقة» مستقل، يوجه الطلبات التي تحتوي على سياقات طويلة أو طلبات غير مكتملة إلى هناك، بينما تبقى الطلبات القصيرة محلية في عنقود PD؛ بعد إتمام التعبئة المسبقة، يتم إعادة إرسال ذاكرة KV عبر الإيثرنت إلى العنقود المحلي لإجراء عملية الترميز. كما يتم إدخال فاصل طول الطلب، ومنظم جدولة يعتمد على عرض النطاق الترددي، ومخزن ذاكرة مؤقتة مختلطة للسلاسل.
استخدمت الورقة نموذجًا هجينًا داخليًا بقدرة 1 تيرابايت (مبنيًا على بنية Kimi Linear) لإجراء مجموعة من الاختبارات، وأظهرت أن الأداء الإجمالي للخدمة كان أعلى بنسبة 54% من نشر PD المتماثل، وأعلى بنسبة 32% من الحلول غير المتجانسة البسيطة، مع استهلاك عرض النطاق الترددي عبر مراكز البيانات بشكل معتدل لكل جهاز.
(المصدر: BlockBeats)