اختراق عتبة نماذج التعلم المعزز ذات المليارات من المعلمات: المصدر المفتوح prime-rl يجعل 28 خادمًا يدرّب 131 ألف سياق

robot
إنشاء الملخص قيد التقدم
ME AI رسالة، وفقًا لمراقبة Beating، أصدرت Prime Intellect إطار تدريب التعلم المعزز الموزع prime-rl الإصدار 0.6.0، متجاوزة عتبة تدريب نماذج الخبراء المختلطة ذات التريليون معلمة MoE في مهام الوكيل الذكي ذات السياق الطويل جدًا. من غير المألوف أن تتمكن النماذج الكبيرة من قراءة نصوص طويلة جدًا تصل إلى 256 ألف، ولكن في تدريب التعلم المعزز، من أجل أن يتمكن النموذج من إجراء استنتاجات من خلال التجربة والخطأ بشكل مستقل، يجب على بطاقة الرسوميات الاحتفاظ طوال الوقت بالقيم الوسيطة الضخمة بطول 131 ألف، مما يؤدي إلى ارتفاع استهلاك الذاكرة بشكل مئات أو آلاف المرات. سابقًا، كان ذلك يتطلب مجموعة ضخمة من آلاف بطاقات الرسوميات، ولكن prime-rl 0.6.0 تمكنت فقط باستخدام 28 خادم H200 من تشغيل تدريب التعلم المعزز لنموذج GLM-5 بسياق 131 ألف، مع التحكم في زمن الخطوة الواحدة في أقل من 5 دقائق. لحل مشكلة توقف موارد بطاقة الرسوميات لفترات طويلة بسبب المهام ذات الوقت الطويل في توليد الشيفرة المعقدة وغيرها من مهام التجربة والخطأ، كسر الإطار آلية الانتظار التزامنية التقليدية، واعتمد بنية غير متزامنة تمامًا للتعلم المعزز. بعد حساب الأوزان الجديدة، يمكن للمدرب الخلفي إرسال التحديثات مباشرة أثناء توليد النصوص دون انتظار انتهاء المهام التجريبية الجارية، حيث تستمر المهام الموزعة باستخدام الاستراتيجية القديمة لضمان السرعة، بينما يتم إدخال ذاكرة التخزين المؤقت KV-cache بشكل قسري لإعادة بناء التخزين المؤقت. لمعالجة مشكلة عدم توافق وتزامن التدريب والاستنتاج في التحديث غير المتزامن، أدخل الإطار تقنية إعادة توجيه التوجيه R3، التي تتعامل مباشرة مع توزيع البيانات على مستوى الأساس، متجنبًا التأخير الناتج عن تحويل البيانات، مما يقلل من عدم التوافق بين الطرفين إلى عُشر، ويعزز استقرار التدريب غير المتزامن بشكل كبير. على مستوى استهلاك الموارد، حل الإطار بشكل شامل مشكلة امتلاء ذاكرة بطاقة الرسوميات بسبب النصوص الطويلة من خلال تصميم دقيق. يستخدم طرف الاستنتاج بنية فصل القراءة والكتابة للحساب، لمنع توقف توليد النصوص بسبب قراءة الكثير من السياق السابق؛ بالإضافة إلى ذلك، يشارك خبرة الخبراء عبر عدة بطاقات رسوميات، ويستخدم تقنية Mooncake لدمج الذاكرة غير المستخدمة وقرص الصلب من عدة خوادم في مخزن مؤقت مشترك. في الحساب المتوازي للنصوص الطويلة جدًا، وبالنظر إلى آلية الانتباه النادرة DSA الفريدة لنموذج GLM-5، قام الإطار بتخصيص خطة توازي خاصة، تضمن أن النموذج يمكنه استعراض الصورة الكاملة، مع تقليل استهلاك البيانات بين بطاقات الرسوميات لكل طبقة إلى مرة واحدة فقط. على جانب التدريب، يدمج الإطار تقنية DeepGEMM لتحقيق تدريب FP8 بمقياس الكتل المقترح من قبل DeepSeek V3، بحيث يستخدم طرف التدريب وطرف الاستنتاج نفس الدقة ونواة الحساب، مما يقضي تمامًا على تعطل التدريب الناتج عن انحراف الدقة. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت