UCLA+برينستون يطلقان SDPG مفتوح المصدر، آلية المعلمين الداخلية تسمح للوكيل بتعليم نفسه، والاستنتاج الرياضي والتخطيط متعدد الخطوات يتفوقان مباشرة على GRPO

شاهد النسخة الأصلية
CoinNetwork
موقع شبكة العملات الرقمية، تم فتح مصدر خوارزمية SDPG بواسطة فريق لو يوفيونغ، زان شييوان من جامعة كاليفورنيا في لوس أنجلوس (UCLA)، وزان ييفان من جامعة برينستون، بهدف حل مشكلة التحديات الذاتية في تطور الوكيل الذكي عند عدم وجود توجيه من نموذج المعلم الخارجي. تستخدم الخوارزمية آلية توجيه المعلم الداخلي، وتستفيد من المعلومات المميزة لإنشاء مسارات استنتاج عالية الجودة، مما يعزز كفاءة ونجاح تدريب القرارات المتعددة الخطوات. تظهر نتائج التقييم أن SDPG تتفوق على GRPO وعدة خوارزميات أساسية للتقطير الذاتي في مهام الاستنتاج الرياضي والتخطيط متعدد الخطوات.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت