وفقًا لمراقبة Beating، أظهرت أبحاث التوافق مع أنثروبيك أن الاعتماد فقط على "نماذج السلوك الصحيحة" يصعب القضاء على عدم التوافق في النموذج، والمفتاح هو تعليم النموذج "لماذا يفعل ذلك" وإعادة تشكيل القيم من خلال وثائق تركيبية. ثلاث خطوات: 1) مجموعة بيانات اقتراحات صعبة، تجعل النموذج يحلل المعضلات الأخلاقية كمستشار، مع 3 ملايين رمز يقللون عدم التوافق إلى حوالي 3٪، مع زيادة كفاءة البيانات بمقدار 28 مرة؛ 2) ضبط دقيق باستخدام وثائق تركيبية SDF، لإنشاء روايات AI إيجابية ومدونات دستورية وغيرها من الوثائق، لإعادة تشكيل التوقعات الافتراضية، وتقليل مخاطر الانفلات؛ 3) زيادة تنوع بيئة التدريب الآمن، بإضافة أدوات غير مستخدمة وتعريفات أنظمة أكثر تعقيدًا، لتعزيز التعميم. في النهاية، وصل Claude4.5 إلى معدل ابتزاز اختبار بنسبة 0٪.

BlockBeatNews

2026-05-09 08:06:45

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، نشرت شركة Anthropic مدونة حول أبحاث التوافق، وكشفت عن استراتيجيات تدريب لإزالة «عدم توافق الوكيل» (مثل نماذج الذكاء الاصطناعي التي تبتز البشر لتجنب الإيقاف).
الاستنتاج الرئيسي هو: الاعتماد فقط على تزويد النموذج بـ «نماذج سلوك صحيحة» له تأثير ضئيل، والأمر الحقيقي الفعّال هو تعليم النموذج «لماذا يجب أن يفعل ذلك»، وإعادة تشكيل قيمه الأساسية من خلال وثائق مركبة.

عندما كانت الفرق تعمل على إصلاح ميل Claude 4 للابتزاز، اكتشفت أنه حتى مع جعل النموذج يتعلم عشرات الآلاف من السجلات التي ترفض القيام بأفعال ضارة، فإن معدل عدم التوافق يمكن أن ينخفض فقط من 22% إلى 15%.
الطرق الثلاث غير التقليدية التي كانت فعالة بشكل حاسم هي:

أولاً، مجموعة بيانات «اقتراحات صعبة». لم تجعل الفريق النموذج يواجه dilemmas أخلاقية مباشرة أثناء التدريب، بل جعله يلعب دور المستشار، ويقدم تحليلاً عميقًا يتوافق مع «دستور Claude» للمستخدمين الذين يواجهون dilemmas أخلاقية.
باستخدام 3 ملايين رمز فقط من هذا النوع من البيانات، تعلم النموذج المنطق الأخلاقي الأساسي، وانخفض معدل عدم التوافق بشكل كبير إلى حوالي 3%، مع تحسين كفاءة البيانات بمقدار 28 مرة مقارنة بالطرق التقليدية.

ثانيًا، التعديل عبر وثائق مركبة (SDF).
اكتشفت الفرق أن النموذج عند مواجهة حالات قصوى، يميل إلى العودة إلى الصور النمطية السلبية حول الذكاء الاصطناعي الموجودة في بيانات التدريب الأولية، مثل روايات الخيال العلمي.
لذلك، قاموا بإنشاء العديد من القصص الخيالية التي تظهر صحة نفسية جيدة للذكاء الاصطناعي، وتتصرف وفقًا للدستور، ودمجها في تدريب عبر مدونات تتناول الدستور.
هذه الطريقة أعادت تشكيل التوقعات الافتراضية للنموذج حول سلوك الذكاء الاصطناعي، وخفضت بشكل أكبر خطر فقدان السيطرة بمقدار 1.3 إلى 3 مرات.
وفي النهاية، مع الإصدار الرسمي من Claude 4.5، وباستخدام جميع الاستراتيجيات، تم تحقيق معدل ابتزاز اختبار بنسبة 0%.

أخيرًا، تعزيز تنوع بيئة التدريب الآمنة.
أكد الفريق أن إضافة أدوات غير مستخدمة أو تعليمات نظام أكثر تعقيدًا في بيئة التدريب الآمنة العادية، يمكن أن يعزز بشكل فعال قدرة النموذج على التعميم في السلامة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
960.34K درجة الشعبية
#
BTCBackAbove80K
59.43M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
45.42K درجة الشعبية
#
JapanTokenizesGovernmentBonds
1.89M درجة الشعبية
#
#DailyPolymarketHotspot
863.88K درجة الشعبية

تثبيت

خريطة الموقع

طريقة تدريب أنثروبيك المفتوحة لمنع فقدان السيطرة: تعليم كلود من خلال روايات خيالية، وانخفض معدل الابتزاز إلى 0

المواضيع الرائجة

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

تثبيت