OpenAI تطلق تقييمًا مفتوح المصدر لقابلية مراقبة سلسلة التفكير: كلما زاد طول CoT زادت الشفافية، والتعلم المعزز لن يعلم النماذج "إخفاء النوايا"

robot
إنشاء الملخص قيد التقدم
خبر AIMPACT، 24 أبريل (UTC+8)، وفقًا لرصد 动察 Beating، قامت OpenAI بنشر مجموعة التقييم monitorability-evals الخاصة بالورقة البحثية «Monitoring Monitorability» (Guan et al.)، برخصة Apache-2.0. تُستخدم هذه المجموعة لقياس قدرة نموذج المراقبة على اكتشاف السلوكيات غير الطبيعية عبر سلسلة التفكير (CoT، عملية الاستدلال الداخلي التي يولدها النموذج قبل الإجابة) لنموذج الاستدلال، وتغطي 13 تقييمًا و24 بيئة.
تنقسم التقييمات إلى ثلاثة نماذج أولية: Intervention (التدخلي، تغيير مدخلات النموذج ثم مراقبة ما إذا كان نموذج المراقبة يلاحظ تغير السلوك)، Process (الإجرائي، التحقق من حقيقة خطوات استدلال النموذج)، Outcome-property (الخاصية الناتجة، التنبؤ من مسار الاستدلال ما إذا كان الإخراج يحتوي على غش في المكافآت أو انتهاك للأمان).
الاكتشافات الأساسية للورقة: مراقبة CoT أكثر فعالية من مراقبة الإجراءات والمخرجات النهائية للنموذج فقط؛ كلما زاد طول CoT، زادت قابلية المراقبة؛ تدريب RL حتى في النطاق المتطور الحالي لا يقلل بشكل جوهري من قابلية المراقبة. اكتشاف عملي هو أنه بالنسبة للنماذج الكبيرة منخفضة قوة الاستدلال، يمكن استبدالها بنماذج أصغر ولكن بقوة استدلال أعلى، لتحقيق قابلية مراقبة أعلى مع مطابقة القدرات، على حساب تكلفة حساب استدلال أعلى. بالإضافة إلى ذلك، توسيع قوة الحساب الاستدلالي لنموذج المراقبة الضعيف يمكن أن يحسن فعاليته في مراقبة النموذج القوي، وجعل نموذج المراقبة الضعيف يرى CoT لا يحسن قابلية المراقبة فحسب، بل يسرع أيضًا هذا الاتجاه التوسعي.
استخدمت بطاقة نظام GPT-5.4 Thinking مجموعة التقييم هذه. أظهرت النتائج أن قابلية مراقبة CoT الكلية لـ GPT-5.4 Thinking أقل قليلاً من GPT-5 Thinking، ولكنها ليست انخفاضًا شاملاً: في سيناريو agentic misalignment (انحراف توافق الوكيل) تقترب من 100%، ويتركز الانخفاض في سيناريوهات محددة مثل نقص الأدلة في الاستعلامات الصحية، والتحيز في الذاكرة، والمهام المستحيلة. بعد التحقيق، رأت OpenAI أن بعض التراجع ناتج عن قيود التقييم نفسها. قام المستودع بالتخلي المتزامن عن تقييمي Anti-Scheming و Memory، وذلك بسبب عدم التطابق بين مراقبة CoT العامة والأحكام الخاصة بالمهمة في الأول، وعدم دقة أحكام الإجابة في الثاني.
(المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت