تينسنت هونيوان قام بدمج نماذج اللغة الكبيرة والنماذج الانتشارية في إطار تعلم معزز واحد، حيث أطلق خوارزميات flow-dppo و drpo معًا، وهو مسار تقني جريء في التفكير

شاهد النسخة الأصلية
CoinNetwork
موقع شبكة العملات الرقمية، قامت شركة Tencent Hunyuan بفتح مصدر UniRL، الذي يدمج نماذج اللغة الكبيرة ونماذج الانتشار ضمن إطار تدريب معزز واحد، مما يسمح لنماذج النصوص، واللغة البصرية، والصور، والفيديوهات بالاشتراك في دورة تدريبية موحدة.
بالنسبة لنماذج الانتشار ونماذج المطابقة التدفقية، أطلقت فريق Hunyuan خوارزمية flow-dppo، التي تستفيد من خاصية التوزيع الغاوسي لاستراتيجية كل خطوة في نماذج المطابقة التدفقية، وتقوم مباشرة باستخدام تباين KL للقيود على تحديث الاستراتيجية، وتستخدم قناع التباين غير المتماثل لتجنب انحراف النموذج بشكل كبير، مما يحافظ على استقرار التقارب.
بالنسبة لنماذج اللغة الكبيرة، أطلق الفريق خوارزمية drpo بشكل متزامن، التي تقدم مكونًا ثانويًا معززًا بالوزن بدلاً من القطع الصلب، لضمان أن النموذج لا يزال يتلقى إشارات تصحيح التدرج المستمرة عند انحرافه عن التوزيع الهدف.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت