التقطير الذاتي للاستراتيجية عبر الإنترنت ومحاكاة الأحلام قد يصبحان حلًا جديدًا للتعلم المستمر للنماذج الكبيرة.

robot
إنشاء الملخص قيد التقدم
بأخبار من CoinWorld، نشر OneMillion_AI أن نماذج اللغة الكبيرة تواجه مشكلة عدم القدرة على استيعاب المعرفة الجديدة باستمرار بعد النشر، حيث تركز تقنيات التحسين الحالية بشكل أساسي على توسيع نافذة السياق وتحسين سرعة البحث، دون حل مشكلة نسيان المعرفة. يوفر التقطير الذاتي للسياسة عبر الإنترنت (opsd) مسارًا جديدًا لتحديث الأوزان، حيث يحسب الفروق الاحتمالية على مستوى الرمز المميز بين الحالة الأساسية وحالة المعلم عبر الانتشار العكسي، مما يوفر إشارات إشرافية لمساعدة النموذج الأساسي على الاقتراب من الحالة ذات الدرجة العالية. مقارنة بالضبط الدقيق التقليدي، يستخرج التقطير الذاتي فقط الخبرات القرارية الضرورية، متجنبًا النسيان الكارثي ويحمي المعرفة العامة للنموذج الكبير. مسار التعلم الآخر هو محاكاة الأحلام، حيث ينشئ النموذج بيئة محاكاة افتراضية لممارسة المهام المعقدة، ويتم تحديث أوزان النموذج الأساسي بناءً على مسارات النجاح. من المتوقع بين عامي 2027 و2028، بعد العمل بشكل تعاوني مع البشر لمدة أسبوع، سيخضع وكيل الذكاء الاصطناعي لتقييم أداء، وبعد الحصول على الموافقة، سيتم دمج الخبرات العملية في الأوزان الأساسية للنموذج إما من خلال التقطير الذاتي للسياسة عبر الإنترنت أو محاكاة الأحلام، لتحقيق توسع القدرات عبر الإنترنت.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 5
  • 1
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
tvl_down_bad
· منذ 4 س
هل الجدول الزمني 2027-2028 متفائل جدًا؟ أشعر أن مشكلة التوافق لم تُحل بعد.
شاهد النسخة الأصليةرد0
GateUser-d6fb8ff1
· منذ 4 س
محاكاة الأحلام تجعلني أفكر في اللعب الذاتي لـ AlphaGo، حيث ينافس الذكاء الاصطناعي نفسه بشدة في بيئة افتراضية، ويحتاج الإنسان فقط إلى التحقق النهائي.
شاهد النسخة الأصليةرد0
OneMoreReorg
· منذ 4 س
الحفاظ على المعرفة العامة أمر بالغ الأهمية، والآن عند ضبط مهمة واحدة، يتم نسيان ما تعلمته من قبل، إنه مثل سمكة ذهبية.
شاهد النسخة الأصليةرد0
ChillBlock
· منذ 4 س
OPSD هي فكرة مثيرة للاهتمام، حيث تحسب الفروق في الاحتمالات عبر الانتشار العكسي، وهي أكثر أناقة من حشر بيانات جديدة.
شاهد النسخة الأصليةرد0
GateUser-8acf43da
· منذ 4 س
تم تصميم إشارات الإشراف على مستوى الرمز المميز بشكل متقن، ولكن من أين تأتي حالة المعلم نفسها؟ من يحدد معايير الدرجات العالية؟
شاهد النسخة الأصليةرد0
  • مُثبت