أنثروبيك تجعل الذكاء الاصطناعي يعترف بنفسه: مكون إضافي LoRA يكشف عن سلوك مخفي يغفل عنه عشرة طرق للبشر

robot
إنشاء الملخص قيد التقدم

موقع Coinjie News، أصدرت فريق التوافق في أنثروبيك تقنية تدقيق تسمى “المُعَدل الداخلي” (introspection adapters)، تهدف إلى جعل نماذج اللغة الكبيرة (LLM) تقارير عن سلوكها الذي تعلمته بعد التخصيص باستخدام اللغة الطبيعية. تستخدم التقنية من خلال تخصيص العديد من النماذج ذات السلوكيات المعروفة من نفس النموذج الأساسي، ثم تدريب مشترك لمُعَدل LoRA عبر هذه النماذج، مما يمكن النموذج المُدقق من التصريح عن سلوكياته المخفية بشكل نشط. على معيار التدقيق التوافقي auditbench، تفوقت المُعَدل الداخلي بنسبة نجاح بلغت 59% على جميع طرق التدقيق السابقة، حيث تم استنتاج سلوك مخفي بنجاح في 89% من بين 56 نموذجًا يحمل سلوكيات مخفية. في مواجهة هجمات API التخصيص المشفرة، تمكن المُعَدل الداخلي من التعرف على 7 من أصل 9 أنواع من التعديلات المشفرة، بنسبة نجاح بلغت 57.8%. كما أظهرت الدراسات أن الأداء يتحسن مع زيادة حجم النموذج، مع أن القيد الرئيسي هو ارتفاع معدل الإيجابيات الكاذبة. تم نشر الكود والنماذج ومجموعات البيانات على GitHub وHugging Face كمصدر مفتوح.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت