فريق ستانفورد قدم RAGEN-2، باستخدام منظم المعلومات المتبادل لحل مشكلة فراغ سلوك وكيل التعلم المعزز

أخبار ME، 9 أبريل (بتوقيت UTC+8)، مؤخرًا، أشارت دراسة باسم RAGEN-2 إلى أنه على الرغم من أن الوكيل المدرب بواسطة التعلم المعزز يبدو أنه يتصرف بشكل متنوع، إلا أنه في الواقع يكرر نماذج، مما يؤدي إلى إنتروبيا عالية ولكن معلومات متبادلة تقريبًا تساوي الصفر، أي أن النموذج تعلم طرقًا متعددة لقول الكلام الفارغ. ولحل هذه المشكلة، اقترح الباحثون منظمًا يعتمد على الإدراك للمعلومات المتبادلة. تم إنجاز هذه الدراسة بواسطة @wzenus و@ManlingLi_ و@YejinChoinka وFei-Fei Li معًا. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت