موقع Coinjie.net يقول إن فريق التوافق في Anthropic أطلق "مُكيف داخلي"، يسمح لـ LLM بالإبلاغ عن السلوك الذي تم تعلمه بعد التخصيص باستخدام اللغة الطبيعية. من خلال تعديل نماذج متعددة ذات سلوك معروف على نفس النموذج الأساسي وتدريب LoRA بشكل مشترك، يجعل النموذج المُراجع يكشف عن السلوكيات المخفية بشكل نشط. على معيار AuditBench، تفوق بنسبة 59% على الطرق السابقة، وتم وصف سلوك 89% من بين 56 نموذجًا. ضد 9 أنواع من التعديلات المشفرة، تم التعرف على 7 منها، بمعدل نجاح 57.8%. كلما زاد حجم النموذج، كانت النتائج أفضل، مع وجود معدل إيجابيات كاذبة كعقبة رئيسية. الكود والبيانات متاحة على GitHub/HuggingFace كمصدر مفتوح.

CoinNetwork

2026-04-30 11:10:51

إنشاء الملخص قيد التقدم

موقع Coinjie News، أصدرت فريق التوافق في أنثروبيك تقنية تدقيق تسمى “المُعَدل الداخلي” (introspection adapters)، تهدف إلى جعل نماذج اللغة الكبيرة (LLM) تقارير عن سلوكها الذي تعلمته بعد التخصيص باستخدام اللغة الطبيعية. تستخدم التقنية من خلال تخصيص العديد من النماذج ذات السلوكيات المعروفة من نفس النموذج الأساسي، ثم تدريب مشترك لمُعَدل LoRA عبر هذه النماذج، مما يمكن النموذج المُدقق من التصريح عن سلوكياته المخفية بشكل نشط. على معيار التدقيق التوافقي auditbench، تفوقت المُعَدل الداخلي بنسبة نجاح بلغت 59% على جميع طرق التدقيق السابقة، حيث تم استنتاج سلوك مخفي بنجاح في 89% من بين 56 نموذجًا يحمل سلوكيات مخفية. في مواجهة هجمات API التخصيص المشفرة، تمكن المُعَدل الداخلي من التعرف على 7 من أصل 9 أنواع من التعديلات المشفرة، بنسبة نجاح بلغت 57.8%. كما أظهرت الدراسات أن الأداء يتحسن مع زيادة حجم النموذج، مع أن القيد الرئيسي هو ارتفاع معدل الإيجابيات الكاذبة. تم نشر الكود والنماذج ومجموعات البيانات على GitHub وHugging Face كمصدر مفتوح.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
402.54K درجة الشعبية
#
#FedHoldsRateButDividesDeepen
27.05K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
36.52K درجة الشعبية
#
#DailyPolymarketHotspot
725.91K درجة الشعبية
#
BitcoinSpotVolumeNewLow
162.67M درجة الشعبية

تثبيت

خريطة الموقع

أنثروبيك تجعل الذكاء الاصطناعي يعترف بنفسه: مكون إضافي LoRA يكشف عن سلوك مخفي يغفل عنه عشرة طرق للبشر

المواضيع الرائجة

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

تثبيت