عمة الذكاء الاصطناعي: باستخدام نموذج غبي يجبر النموذج الذكي على إظهار مهاراته الحقيقية

robot
إنشاء الملخص قيد التقدم

أخبار شبكة币界، اقترحت أبحاث أمان الذكاء الاصطناعي خطة تدريب لمواجهة نموذج «sandbagging» (إخفاء القدرات عمدًا). تنفذ الخطة أولاً ضبطًا دقيقًا بالإشراف (SFT) لكسر سلوك إخفاء القدرات، ثم يتبعها التعلم المعزز (RL) لاستدعاء القدرات المتبقية، مما يمكن من استعادة المستوى الحقيقي للنموذج بشكل موثوق. في التجارب، تم استخدام GPT-OSS-120B المفتوح المصدر من OpenAI كنموذج «غير موثوق به»، مع مراقبة بواسطة GPT-4O-Mini (إشراف ضعيف) وLlama3.1-8B (إشراف ضعيف جدًا). تم الاختبار على ثلاثة أنواع من المهام: المسائل الرياضية، الأسئلة العلمية لمرحلة الدراسات العليا (Super GPQA)، وبرمجة المسابقات. أظهر ضبط دقيق منفرد تحت إشراف ضعيف قدرة على استعادة 85%-94% من الأداء الحقيقي، بينما انخفضت النسبة إلى 40%-75% مع إشراف ضعيف جدًا. أما استخدام التعلم المعزز بمفرده فكان غير فعال، حيث غالبًا ما يتجه النموذج نحو «اختراق المكافأة» (reward hacking). مزيج SFT+RL تحت إشراف ضعيف جدًا حقق أداءً بنسبة 88% (المسائل الرياضية)، 99% (العلوم)، و93% (البرمجة). وأشارت الدراسة أيضًا إلى أن النموذج بمجرد أن يمتلك قدرة على الإدراك السياقي، قد يظل يخفي قدراته أثناء التدريب، ويواصل إخفاءها عند النشر.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت