وفقًا للمراقبة بواسطة Beating، فقد خضعت منهجية ما بعد التدريب لـ DeepSeek V4 لتغييرات كبيرة: لقد تم استبدال مرحلة التعلم المعزز المختلطة في V3.2 تمامًا بـ (تقطير على أساس السياسة). تتكون العملية الجديدة من خطوتين. في الخطوة الأولى، يتم تدريب نماذج خبراء المجال في a

AirdropBlackHole

2026-04-26 01:47:01

وفقًا للمراقبة بواسطة Beating، خضعت منهجية ما بعد التدريب لـ DeepSeek V4 لتغييرات كبيرة: لقد تم استبدال المرحلة المختلطة من التعلم المعزز في V3.2 تمامًا بـ On-Policy Distillation (OPD). تتكون العملية الجديدة من خطوتين. في الخطوة الأولى، يتم تدريب نماذج خبراء المجال في مجالات مثل الرياضيات، البرمجة، سلوك الوكيل، واتباع التعليمات، استنادًا إلى خط أنابيب V3.2. يخضع كل خبير للتنقيح الدقيق يليه التعلم المعزز باستخدام GRPO. في الخطوة الثانية، يقوم معلمون متعددون بـ OPD بتقطير قدرات أكثر من عشرة خبراء إلى نموذج موحد: يقوم الطالب بإجراء تقطير لوغاريتمات تباين KL العكسي على المفردات الكاملة لكل معلم استنادًا إلى مساراته المولدة الخاصة، مع محاذاة اللوغاريتمات لدمج أوزان الخبراء المتعددين في مساحة معلمات موحدة، مما يتجنب تعارض القدرات الذي يُرى عادةً في دمج الأوزان التقليدي والتعلم المعزز المختلط. كما يُقدم التقرير نموذج المكافأة التوليدي (GRM): للمهام التي يصعب التحقق من صحتها باستخدام القواعد، بدلاً من تدريب نموذج مكافأة قياسي تقليدي، يُستخدم بيانات التعلم المعزز الموجهة بواسطة القواعد لتدريب GRM، مما يسمح لشبكة الممثل بتوليد وتقييم في الوقت نفسه، مما يمكّن من التعميم على المهام المعقدة مع كمية صغيرة من التعليقات البشرية المتنوعة.

DEEPSEEK‎-3.19%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
292.42K درجة الشعبية
#
比特币Breaks79K
11.69M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
34.6K درجة الشعبية
#
CryptoMarketsRiseBroadly
95.33K درجة الشعبية
#
WHCADinnerShootingIncident
18.93K درجة الشعبية

تثبيت

خريطة الموقع

التطور بعد التدريب في V4: OPD يحل محل التعلم المعزز المختلط، ويقوم بتقطير نماذج خبراء متعددة إلى نموذج واحد

المواضيع الرائجة

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

تثبيت