تنسنت هونيوان تطلق UniRL: البنية التحتية الموحدة للتعلم المعزز متعدد الأوضاع

robot
إنشاء الملخص قيد التقدم
ME AI رسالة، أطلقت Tencent Hunyuan منصة UniRL، وهي بنية تحتية للتعلم المعزز تدعم نماذج متعددة الأوضاع موحدة، وأصدرت خوارزمية جديدة اثنين DRPO وFlow-DPPO. تغطي UniRL من خلال دورة تدريبية بعدية واحدة (توليد → تقييم → ميزة → تحديث → مزامنة) نماذج التشتت/مطابقة التدفقات، وLLM/VLM، والنماذج متعددة الأوضاع الموحدة (مثل Hunyuan-Image 3 وBagel). يمكن أن تكون النماذج والخوارزميات كمحاور مستقلة، مما يتيح الجمع بين النماذج والخوارزميات بشكل متنوع. يدعم الإطار محرك استدعاء قابل للتبديل (جانب التدريب/SGLang/vLLM-Omni)، وتقسيم FSDP2، وثلاث وضعيات نشر. أدخل FlowDPPO استراتيجية تحسين مجال الثقة استنادًا إلى التشتت الدقيق لنماذج التدفق/التشتت؛ وDRPO يوفر طريقة تنظيم ثانوية لوزن الميزة بسلاسة في RL لنماذج LLM. الكود مفتوح المصدر. (المصدر: AiHot)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت