فريق ستانفورد قدم RAGEN-2، باستخدام منظم المعلومات المتبادل لمعالجة مشكلة فراغ سلوك وكيل التعلم المعزز

2026-04-09 17:21:17

رسالة أخبار ME News، 9 أبريل (UTC+8). مؤخرًا، أشارت دراسة بعنوان RAGEN-2 إلى أنه رغم أن الوكيل المدرب عبر التعلم المعزز يبدو متنوع السلوك، فإنه في الواقع يعيد تكرار القوالب فقط، ما يؤدي إلى ارتفاع الإنتروبيا لكن بمعلومات متبادلة شبه معدومة؛ أي أن النموذج تعلم طرقًا متعددة لصياغة كلام فارغ. ولحل هذه المشكلة، اقترح الباحثون مُنظِّمًا (Regularizer) حساسًا للمعلومات المتبادلة. وقد أُنجزت هذه الدراسة بواسطة @wzenus و@ManlingLi_ و@YejinChoinka وFei-Fei Li معًا. (المصدر: InFoQ)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.