فريق Guquanquan قام بهذه المبادرة المفتوحة بشكل قوي، حيث يمكنه التطور الذاتي بدون نماذج تعليم خارجية، وتستحق فكرة توليد المعلومات المميزة ومسارات الاستنتاج أن تتأمل فيها بعناية

شاهد النسخة الأصلية
CoinNetwork
موقع شبكة العملات الرقمية، تم فتح مصدر خوارزمية SDPG بواسطة فريق لو يوفيونغ، زان شييوان من جامعة كاليفورنيا في لوس أنجلوس (UCLA)، وزان ييفان من جامعة برينستون، بهدف حل مشكلة التحديات الذاتية في تطور الوكيل الذكي عند عدم وجود توجيه من نموذج المعلم الخارجي. تستخدم الخوارزمية آلية توجيه المعلم الداخلي، وتستفيد من المعلومات المميزة لإنشاء مسارات استنتاج عالية الجودة، مما يعزز كفاءة ونجاح تدريب القرارات المتعددة الخطوات. تظهر نتائج التقييم أن SDPG تتفوق على GRPO وعدة خوارزميات أساسية للتقطير الذاتي في مهام الاستنتاج الرياضي والتخطيط متعدد الخطوات.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت