التطور بعد التدريب في V4: OPD يحل محل التعلم المعزز المختلط، ويقوم بتقطير نماذج خبراء متعددة إلى نموذج واحد

وفقًا للمراقبة بواسطة Beating، خضعت منهجية ما بعد التدريب لـ DeepSeek V4 لتغييرات كبيرة: لقد تم استبدال المرحلة المختلطة من التعلم المعزز في V3.2 تمامًا بـ On-Policy Distillation (OPD). تتكون العملية الجديدة من خطوتين. في الخطوة الأولى، يتم تدريب نماذج خبراء المجال في مجالات مثل الرياضيات، البرمجة، سلوك الوكيل، واتباع التعليمات، استنادًا إلى خط أنابيب V3.2. يخضع كل خبير للتنقيح الدقيق يليه التعلم المعزز باستخدام GRPO. في الخطوة الثانية، يقوم معلمون متعددون بـ OPD بتقطير قدرات أكثر من عشرة خبراء إلى نموذج موحد: يقوم الطالب بإجراء تقطير لوغاريتمات تباين KL العكسي على المفردات الكاملة لكل معلم استنادًا إلى مساراته المولدة الخاصة، مع محاذاة اللوغاريتمات لدمج أوزان الخبراء المتعددين في مساحة معلمات موحدة، مما يتجنب تعارض القدرات الذي يُرى عادةً في دمج الأوزان التقليدي والتعلم المعزز المختلط. كما يُقدم التقرير نموذج المكافأة التوليدي (GRM): للمهام التي يصعب التحقق من صحتها باستخدام القواعد، بدلاً من تدريب نموذج مكافأة قياسي تقليدي، يُستخدم بيانات التعلم المعزز الموجهة بواسطة القواعد لتدريب GRM، مما يسمح لشبكة الممثل بتوليد وتقييم في الوقت نفسه، مما يمكّن من التعميم على المهام المعقدة مع كمية صغيرة من التعليقات البشرية المتنوعة.

DEEPSEEK‎-3.19%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت