币界网消息، Odyssey公司将强化学习(RLHF)引入视觉模型训练,发布了prowl框架,首次将RL引入世界模型的训练循环。


يخبرنا موقع CoinWorld أن شركة Odyssey أدخلت التعلم المعزز (RLHF) في تدريب النماذج البصرية، وأطلقت إطار عمل prowl، والذي يدمج لأول مرة التعلم المعزز في دورة تدريب النماذج العالمية.

该框架通过派遣RL智能体在游戏环境中探索,寻找模型在几何、运动、视觉一致性和动作响应上的失败案例,并将这些bug打包成训练数据反哺模型。
يعمل هذا الإطار عن طريق إرسال وكيل RL للاستكشاف في بيئة اللعبة، للبحث عن حالات فشل النموذج في الجوانب الهندسية، والحركة، والتناسق البصري، واستجابة الحركة، ثم يجمع هذه الأخطاء في بيانات تدريب لإعادة تغذية النموذج.

prowl设计了优先级对抗轨迹缓冲区(PAT),当模型修复简单bug后,PAT会自动推送更难的失败案例。
صمم إطار عمل prowl مخزن مسارات تنافسي ذو أولوية (PAT)، حيث بعد إصلاح النموذج للأخطاء البسيطة، يقوم PAT تلقائيًا بدفع حالات فشل أصعب.

团队在Minecraft的Minerl环境中验证了prowl,量化结果显示,prowl相比预训练基线将动作跟随误差降低了12.6%,在最难的前10%片段上降幅扩大到20.9%。
قام الفريق باختبار prowl في بيئة Minerl الخاصة بـ Minecraft، وأظهرت النتائج الكمية أن prowl يقلل من خطأ تتبع الحركة بنسبة 12.6% مقارنة بالخط الأساسي قبل التدريب، وزاد الانخفاض إلى 20.9% في أصعب 10% من المقاطع.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت