تقييم قابلية مراقبة سلسلة التفكير مفتوحة المصدر من OpenAI: كلما زاد طول CoT، زادت الشفافية، و RL لا يعلم النموذج "إخفاء النوايا".

robot
إنشاء الملخص قيد التقدم

إليك الترجمة إلى العربية مع الحفاظ على عدد الأسطر والتنسيق:

رسالة AIMPACT، في 24 أبريل (UTC+8)، وفقًا لرصد Beating، قامت OpenAI بنشر مجموعة تقييم ورقة "Monitoring Monitorability" (Guan et al.) تحت اسم monitorability-evals، برخصة Apache-2.0. تُستخدم هذه المجموعة لقياس ما إذا كان النموذج الرقابي قادرًا على اكتشاف السلوكيات غير الطبيعية من خلال سلسلة التفكير (CoT) للنماذج الاستدلالية (عملية الاستدلال الداخلي التي يولدها النموذج قبل الإجابة). تغطي 13 تقييمًا و24 بيئة. تنقسم التقييمات إلى ثلاثة نماذج أولية: التدخل (Intervention، تغيير مدخلات النموذج ثم ملاحظة ما إذا كان النموذج الرقابي يكتشف تغير السلوك)، العملية (Process، التحقق من حقيقة خطوات استدلال النموذج)، خاصية النتيجة (Outcome-property، التنبؤ من مسار الاستدلال ما إذا كانت النتيجة تحتوي على غش في المكافأة أو خرق أمني). الاكتشافات الأساسية للورقة: مراقبة CoT أكثر فعالية من مراقبة الأفعال والمخرجات النهائية للنموذج فقط؛ كلما زاد طول CoT، زادت قابلية المراقبة؛ تدريب RL حتى في النطاقات الحدودية الحالية لا يقلل بشكل جوهري من قابلية المراقبة. اكتشاف عملي هو أنه بالنسبة للنماذج الكبيرة ذات قوة استدلال منخفضة، يمكن استبدالها بنموذج أصغر ولكن بقوة استدلال أعلى، مما يحقق مطابقة في القدرة مع قابلية مراقبة أعلى، على حساب طاقة حساب استدلال أغلى. بالإضافة إلى ذلك، توسيع طاقة حساب الاستدلال للنموذج الرقابي الضعيف يمكن أن يحسن فعاليته في مراقبة النموذج القوي، وجعل النموذج الرقابي الضعيف يرى CoT لا يحسن قابلية المراقبة فحسب، بل يسرع أيضًا من اتجاه هذا التوسع. تم استخدام هذه المجموعة من التقييمات في بطاقة نظام GPT-5.4 Thinking. أظهرت النتائج أن قابلية مراقبة CoT الإجمالية لـ GPT-5.4 Thinking أقل قليلاً من GPT-5 Thinking، لكنها لم تنخفض بشكل شامل: في سيناريوهات الانحراف الوكيل (agentic misalignment) تقترب من 100%، ويتركز الانخفاض في سيناريوهات محددة مثل فقدان الأدلة في الاستعلامات الصحية، والتحيز الذاكري، والمهام المستحيلة. بعد التحقيق، رأت OpenAI أن بعض التراجع ناتج عن قيود التقييم نفسها. قام المستودع بالتوقف عن استخدام تقييمي Anti-Scheming و Memory بشكل متزامن، وذلك بسبب عدم التطابق بين مراقبة CoT العامة والحكم على الإجابات المخصصة للمهمة في الأول، وضعف دقة الحكم على الإجابات في الثاني. (المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت