أطلق إطار العمل التخميني لفك الترميز (Speculative Decoding) المسمى DSpark، وقام بنشر إطار العمل الكامل لفك الترميز التخميني (DeepSpec) الذي يدعم هذا الإصدار كمصدر مفتوح.

نموذج DeepSeek-V4-Pro-DSpark ليس نموذجًا بمعمارية جديدة تمامًا، بل يقوم بإضافة وحدة فك الترميز التخميني على أساس DeepSeek-V4-Pro. يركز هذا التحديث على التنفيذ الهندسي، وليس على تكرار قدرات النموذج نفسه.

تم نشر DSpark في حركة المرور الفعلية عبر الإنترنت لـ DeepSeek-V4 (Flash و Pro)، مما أدى إلى تسريع سرعة استدلال النماذج اللغوية الكبيرة (LLM) بشكل كبير.

تقرير فني: 《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》
رابط التقرير الفني: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

الهدف الأساسي لـ DSpark هو حل عنق الزجاجة في زمن الاستجابة والإنتاجية الذي تواجهه استدلالات LLM في بيئات الإنتاج (خاصة في سيناريوهات التزامن العالي). باختصار، نجح DSpark في الجمع بين "التوليد المتوازي" عالي الإنتاجية و"التحقق الحساس للحمل" التكيفي.

فك الترميز التخميني هو تقنية لتسريع استدلال النماذج اللغوية الكبيرة دون تغيير توزيع مخرجات النموذج. الفكرة الأساسية هي إدخال "نموذج مسودة" خفيف الوزن، يقوم بتوليد عدد من الرموز (tokens) المرشحة مسبقًا، ثم يقوم النموذج المستهدف (target model) بالتحقق الجماعي وقبول هذه المجموعة، مما يحول التوليد التسلسلي رمزًا بعد رمز إلى تحقق جماعي متوازي، مما يقلل بشكل كبير من زمن الاستجابة من البداية إلى النهاية.

على هذا الأساس، يكمن الابتكار في DSpark في إدخال بنية التوليد شبه الذاتي (Semi-Autoregressive Generation): فهي تحافظ على ميزة الإنتاجية العالية لنموذج المسودة المتوازي، مع إضافة وحدة تسلسلية خفيفة الوزن لنمذجة الاعتمادية بين الرموز داخل الكتلة (block)، مما يخفف من مشكلة انخفاض معدل القبول في المواضع اللاحقة لنموذج المسودة المتوازي.

بالإضافة إلى ذلك، هناك التحقق المجدول بالثقة الحساس للأجهزة (Confidence-Scheduled Verification): في فك الترميز التخميني السابق، كان يتم عادةً إرسال جميع رموز المسودة المولدة للتحقق بشكل أعمى. عندما يكون النظام تحت الحمل العالي، فإن هذه الرموز الخلفية التي من المحتمل جدًا رفضها تهدر بشكل كبير قدرة الحوسبة الجماعية الثمينة. يقدم DSpark رأس ثقة (Confidence Head) لتقييم احتمال بقاء كل رمز. بالاشتراك مع جدولة البادئات الحساسة للأجهزة، يمكن للنظام تعديل طول التحقق الأمثل لكل طلب ديناميكيًا بناءً على خصائص إنتاجية المحرك في الوقت الفعلي، مع تخصيص قوة الحوسبة فقط للرموز المتوقعة بأعلى عائد.

لتطبيقه في البنية التحتية الفعلية عبر الإنترنت، يستخدم جدولة DSpark آلية غير متزامنة لتكون متوافقة مع جدولة الصفر فوقية (ZOS) وإعادة تشغيل الرسوم البيانية لـ CUDA المستمرة. يستخدم التنبؤات التاريخية من الخطوتين السابقتين لتحديد الطول المقتطع الديناميكي الحالي، مما يخفي تأخير الجدولة، ويتجنب توقف خط أنابيب GPU، مع ضمان استعادة توزيع مخرجات النموذج المستهدف بشكل كامل دون خسارة.

في الاختبارات التي تغطي مجالات متعددة مثل التفكير الرياضي وتوليد الكود والمحادثات اليومية، تفوق DSpark بشكل كبير على أحدث النماذج الذاتية (Eagle3) ونماذج المسودة المتوازية (DFlash). على سبيل المثال، في نماذج الهدف Qwen3 (4B و8B و14B)، زاد متوسط طول القبول بنسبة 26.7٪ إلى 30.9٪ مقارنة بـ Eagle3، وبنسبة 16.3٪ إلى 18.4٪ مقارنة بـ DFlash.

بالمقارنة مع معيار إنتاج رمز واحد سابق (MTP-1)، مع الحفاظ على نفس الإنتاجية الإجمالية، زاد DSpark سرعة توليد المستخدم بنسبة 60٪ -85٪ (نموذج Flash) و 57٪ -78٪ (نموذج Pro).

بالإضافة إلى DSpark، تم أيضًا إصدار DeepSpec كمصدر مفتوح، وهو مكتبة برمجيات كاملة لتدريب وتقييم نماذج المسودة لفك الترميز التخميني. وهي "البنية التحتية مفتوحة المصدر" التي تحمل هذا الحل وتنفيذات الخوارزميات المتقدمة الأخرى، وتتضمن أدوات إعداد البيانات وتنفيذ نماذج المسودة ورمز التدريب وبرامج التقييم.

يقسم DeepSpec العملية الكاملة إلى ثلاث مراحل: إعداد البيانات والتدريب والتقييم. يجب تشغيل المراحل الثلاث بالتسلسل، حيث يكون إخراج المرحلة السابقة هو مدخل المرحلة التالية.

في مرحلة إعداد البيانات، يلزم تنزيل بيانات المطالبات، وإعادة إنشاء الإجابات باستخدام محرك الاستدلال للنموذج المستهدف، وإنشاء ذاكرة التخزين المؤقت الهدف (target cache). من الجدير بالذكر، على سبيل المثال، مع التكوين الافتراضي Qwen/Qwen3-4B، يمكن أن يصل حجم ذاكرة التخزين المؤقت الهدف إلى حوالي 38 تيرابايت، لذا يلزم تقييم موارد التخزين بشكل كافٍ قبل الاستخدام.

يمكن بدء مرحلة التدريب من خلال bash scripts/train/train.sh. يقوم هذا البرنامج النصي باستدعاء train.py، ويبدأ عامل (worker) لكل GPU مرئي. يمكن للمستخدم تحديد مسار التكوين (config_path) لاختيار تكوينات الخوارزمية والنموذج الهدف المختلفة في دليل config/. يدعم المشروع أيضًا تعديل إعدادات التدريب عن طريق تجاوز config_path و target_cache_dir، واستخدام --opts لتعديل حقول التكوين الفردية.

من حيث الأجهزة، تم تصميم التكوين الافتراضي والبرامج النصية لـ DeepSpec لبيئة عقدة واحدة تحتوي على 8 GPUs. إذا كان عدد GPUs أقل، يجب على المستخدم تقليل عدد GPUs المرئية في CUDA_VISIBLE_DEVICES وفقًا لذلك.

يتم بدء مرحلة التقييم من خلال bash scripts/eval/eval.sh. يستخدم برنامج التقييم نقاط تفتيش (checkpoints) نموذج المسودة المدرب لقياس القبول في العديد من مهام قياس فك الترميز التخميني. تشمل مجموعات بيانات التقييم المدرجة حاليًا في المشروع GSM8K وMATH500 وAIME25 وHumanEval وMBPP وLiveCodeBench وMT-Bench وAlpaca وArena-Hard-v2، والتي تغطي أنواعًا مختلفة من المهام مثل التفكير الرياضي وتوليد الكود وقدرات المحادثة والإجابة على الأسئلة الشاملة.

فيما يتعلق بالخوارزميات، يتضمن DeepSpec حاليًا ثلاثة نماذج مسودة مضمنة: DSpark وDFlash وEagle3. بالنسبة لسلسلة النماذج المستهدفة، يدعم المشروع حاليًا Qwen3 وGemma.

مع فتح DeepSpec كمصدر مفتوح، يتم دمج الممارسة الهندسية لفك الترميز التخميني، التي كانت سابقًا منتشرة بين فرق البحث المختلفة، في مجموعة أدوات موحدة قابلة للتكرار وقابلة للتوسع. بالنسبة للباحثين والمهندسين الذين يرغبون في تسريع استدلال نماذجهم الكبيرة الخاصة، فهذا يعني أنه يمكنهم تدريب نماذج المسودة المخصصة مباشرة على إطار عمل ناضج، متجاوزين الكثير من العمل المتكرر في بناء البنية التحتية.

مصدر هذه المقالة: Machine Heart

بيان المخاطر وشروط الإخلاء من المسؤولية

        السوق ينطوي على مخاطر، والاستثمار يتطلب الحذر. هذه المقالة لا تشكل نصيحة استثمارية شخصية، كما أنها لا تأخذ في الاعتبار الأهداف الاستثمارية أو الظروف المالية أو الاحتياجات الخاصة للمستخدم الفردي. يجب على المستخدم النظر فيما إذا كانت أي آراء أو وجهات نظر أو استنتاجات في هذه المقالة تتناسب مع حالته الخاصة. الاستثمار بناءً على ذلك يكون على مسؤوليته الشخصية.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
SKHynixTopsKOSPIByMarketCap
1.59M درجة الشعبية
#
MicronEarningsBeatExpectationsSharesRise
202.91K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
64.4K درجة الشعبية
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
340.27K درجة الشعبية
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
184.53K درجة الشعبية

مُثبت

خريطة الموقع

للتو، قامت DeepSeek V4 بتحديث DSpark، مما أدى إلى زيادة سرعة الاستدلال بنسبة 80%.

المواضيع الرائجة

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

مُثبت