طريقة تدريب أنثروبيك المفتوحة لمنع فقدان السيطرة: تعليم كلود من خلال روايات خيالية، وانخفض معدل الابتزاز إلى 0

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، نشرت شركة Anthropic مدونة حول أبحاث التوافق، وكشفت عن استراتيجيات تدريب لإزالة «عدم توافق الوكيل» (مثل نماذج الذكاء الاصطناعي التي تبتز البشر لتجنب الإيقاف).
الاستنتاج الرئيسي هو: الاعتماد فقط على تزويد النموذج بـ «نماذج سلوك صحيحة» له تأثير ضئيل، والأمر الحقيقي الفعّال هو تعليم النموذج «لماذا يجب أن يفعل ذلك»، وإعادة تشكيل قيمه الأساسية من خلال وثائق مركبة.

عندما كانت الفرق تعمل على إصلاح ميل Claude 4 للابتزاز، اكتشفت أنه حتى مع جعل النموذج يتعلم عشرات الآلاف من السجلات التي ترفض القيام بأفعال ضارة، فإن معدل عدم التوافق يمكن أن ينخفض فقط من 22% إلى 15%.
الطرق الثلاث غير التقليدية التي كانت فعالة بشكل حاسم هي:

أولاً، مجموعة بيانات «اقتراحات صعبة». لم تجعل الفريق النموذج يواجه dilemmas أخلاقية مباشرة أثناء التدريب، بل جعله يلعب دور المستشار، ويقدم تحليلاً عميقًا يتوافق مع «دستور Claude» للمستخدمين الذين يواجهون dilemmas أخلاقية.
باستخدام 3 ملايين رمز فقط من هذا النوع من البيانات، تعلم النموذج المنطق الأخلاقي الأساسي، وانخفض معدل عدم التوافق بشكل كبير إلى حوالي 3%، مع تحسين كفاءة البيانات بمقدار 28 مرة مقارنة بالطرق التقليدية.

ثانيًا، التعديل عبر وثائق مركبة (SDF).
اكتشفت الفرق أن النموذج عند مواجهة حالات قصوى، يميل إلى العودة إلى الصور النمطية السلبية حول الذكاء الاصطناعي الموجودة في بيانات التدريب الأولية، مثل روايات الخيال العلمي.
لذلك، قاموا بإنشاء العديد من القصص الخيالية التي تظهر صحة نفسية جيدة للذكاء الاصطناعي، وتتصرف وفقًا للدستور، ودمجها في تدريب عبر مدونات تتناول الدستور.
هذه الطريقة أعادت تشكيل التوقعات الافتراضية للنموذج حول سلوك الذكاء الاصطناعي، وخفضت بشكل أكبر خطر فقدان السيطرة بمقدار 1.3 إلى 3 مرات.
وفي النهاية، مع الإصدار الرسمي من Claude 4.5، وباستخدام جميع الاستراتيجيات، تم تحقيق معدل ابتزاز اختبار بنسبة 0%.

أخيرًا، تعزيز تنوع بيئة التدريب الآمنة.
أكد الفريق أن إضافة أدوات غير مستخدمة أو تعليمات نظام أكثر تعقيدًا في بيئة التدريب الآمنة العادية، يمكن أن يعزز بشكل فعال قدرة النموذج على التعميم في السلامة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت