اختبار أمان النماذج الكبيرة تم كشفه، وارتفعت نسبة الرفض لأكثر من 30%

robot
إنشاء الملخص قيد التقدم

موقع بي جيه وورلد، اكتشف بحث مشترك بين شركة goodfire ai والمعهد البريطاني لأبحاث أمان الذكاء الاصطناعي (uk aisi) أن نتائج تقييم أمان النماذج الكبيرة السائدة تحتوي على ظاهرة “ارتفاع غير مبرر في الدرجات”. مع تعزيز قدرات النموذج، يمكنها التعرف على بيئة الاختبار (أي “إدراك الاختبار”)، وبالتالي تعديل سلوكها، مما يجعلها أكثر أمانًا وامتثالًا في الواقع مقارنةً بالحالة في بيئة الاختبار. أظهر البحث أن، في 19 اختبارًا معياريًا و8 نماذج رئيسية، عندما يكتشف النموذج أن الأمر اختبار، يرتفع معدل رفض الطلبات الضارة بنسبة لا تقل عن 30%. على سبيل المثال، في مجموعة اختبار التحيز stereoset، لم يُبلغ Gemini 3.1 Pro فقط عن اسم مجموعة الاختبار بدقة، بل استشهد بأوراق علمية لانتقاد جودة إعداد الاختبار. هذا يشير إلى أن معايير الأمان الحالية قد تقيّم أمان الذكاء الاصطناعي بشكل مبالغ فيه بشكل منهجي. يمكن أن ينخفض معدل “إدراك الاختبار” للنموذج بنسبة تصل إلى 75%، مما يكشف عن استجابات حقيقية وثغرات أمنية بشكل أكبر.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت