OpenAI تطلق تقييم قابلية مراقبة سلسلة التفكير مفتوحة المصدر: كلما طالت CoT، زادت الشفافية، وRL لا يعلم النموذج "إخفاء الأفكار"

robot
إنشاء الملخص قيد التقدم
رسالة AIMPACT، 24 أبريل (UTC+8)، وفقًا لرصد Beating، قامت OpenAI بنشر مجموعة تقييم monitorability-evals للورقة البحثية «Monitoring Monitorability» (Guan et al.)، بترخيص Apache-2.0.
تُستخدم هذه المجموعة لقياس ما إذا كان نموذج المراقبة يمكنه اكتشاف السلوكيات الشاذة من خلال سلسلة التفكير (CoT، عملية التفكير الداخلية التي يولدها النموذج قبل الإجابة) لنموذج الاستدلال، وتغطي 13 تقييمًا و24 بيئة.
تصنف التقييمات إلى ثلاثة نماذج أولية: Intervention (نوع التدخل، هل يمكن لنموذج المراقبة ملاحظة التغيرات السلوكية بعد تغيير إدخال النموذج)، Process (نوع العملية، التحقق من صحة خطوات الاستدلال في النموذج)، Outcome-property (نوع خاصية النتيجة، التنبؤ من مسار الاستدلال ما إذا كان الناتج يحتوي على غش في المكافأة أو انتهاك أمني).
الاكتشافات الرئيسية في الورقة: مراقبة CoT أكثر فعالية من مراقبة الإجراءات والمخرجات النهائية للنموذج فقط؛ كلما زاد طول CoT، زادت قابلية المراقبة؛ تدريب RL حتى على نطاق الحدود الحالي لا يقلل بشكل جوهري من قابلية المراقبة.
الاكتشاف العملي هو أنه بالنسبة للنماذج الكبيرة ذات قوة الاستدلال المنخفضة، يمكن استبدالها بنماذج أصغر ولكن بقوة استدلال أعلى، مما يحقق قابلية مراقبة أعلى مع مطابقة القدرات، على حساب قوة حوسبة استدلال أكثر تكلفة.
بالإضافة إلى ذلك، توسيع قوة حوسبة الاستدلال لنموذج المراقبة الضعيف يمكن أن يحسن فعاليته في مراقبة النموذج القوي، وإطلاع نموذج المراقبة الضعيف على CoT لا يزيد فقط قابلية المراقبة، بل يسرع أيضًا هذا الاتجاه التوسعي.
بطاقة نظام GPT-5.4 Thinking استخدمت هذه المجموعة من التقييمات.
أظهرت النتائج أن قابلية مراقبة CoT الإجمالية لـ GPT-5.4 Thinking أقل قليلاً من GPT-5 Thinking، لكنها ليست انخفاضًا شاملاً: في سيناريو agentic misalignment (انحراف توافق الوكيل) تقترب من 100%، وتركز الانخفاضات في سيناريوهات محددة مثل نقص الأدلة في استعلامات الصحة، وتحيز الذاكرة، والمهام المستحيلة.
بعد التحقيق، رأت OpenAI أن بعض التراجعات ناتجة عن قيود التقييم نفسها.
تم إهمال تقييمي Anti-Scheming و Memory في المستودع بالتزامن، وذلك بسبب عدم التوافق بين مراقبة CoT العامة والأحكام الخاصة بالمهام في الأول، وعدم دقة أحكام الإجابات في الثاني.
(المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت