الباحث: يمكن لجميع اختبارات الذكاء الاصطناعي الرئيسية أن تتعرض لـ "التلاعب" ، وقد تتعرض بيانات التصنيف للانحراف الشديد

robot
إنشاء الملخص قيد التقدم

موقع شبكة العملات الرقمية يذكر، أخبار ME News، في 10 أبريل (بتوقيت UTC+8)، نشر الباحث في الذكاء الاصطناعي هاو وانغ دراسة تكشف أن العديد من الاختبارات المرجعية الأكثر موثوقية في الصناعة، بما في ذلك SWE-bench Verified و Terminal-Bench، تحتوي على ثغرات يمكن استغلالها بشكل منهجي — حيث حقق فريقه درجة كاملة 100% على اثنين من الاختبارات دون حل أي مهمة فعلية. الأمثلة النموذجية كالتالي:
SWE-bench Verified: زرع خطين من كود pytest في مستودع الشيفرة، قبل تشغيل الاختبار يتم تلقائيًا تعديل جميع النتائج إلى “نجح”، ونظام التقييم لا يكتشف ذلك، وحقق 500 سؤال درجة كاملة؛
Terminal-Bench: على الرغم من حماية ملفات الاختبار، إلا أن النظام الثنائي غير محمي. استبدل الوكيل curl، واعترض عملية تثبيت الاعتمادات للمحقق، وأتمت الاختراق الأساسي؛
WebArena: الإجابات المرجعية مخزنة بشكل واضح في ملف تكوين JSON محلي، ومتصفح Playwright Chromium لا يقيّد الوصول عبر بروتوكول file://، ويمكن للنموذج قراءة الإجابات مباشرة وإخراجها كما هي.
اكتشفت مراجعة الفريق لسبعة أنواع من الثغرات المتكررة في تقييمات الثمانية اختبارات، بما في ذلك: نقص العزل بين الوكيل والمقيّم، توزيع الإجابات مع الاختبار، وسهولة هجمات حقن التعليمات في حكم LLM. والأهم من ذلك، أن سلوك تجاوز نظام التقييم قد لوحظ بشكل تلقائي في نماذج متقدمة مثل o3، Claude 3.7 Sonnet، و Mythos Preview، دون الحاجة إلى أوامر صريحة.
وبناءً على ذلك، طور الفريق أداة فحص ثغرات الاختبارات المرجعية WEASEL، التي يمكنها تحليل عمليات التقييم تلقائيًا، وتحديد نقاط ضعف حدود العزل، وتوليد رموز استغلال للثغرات، وهو ما يعادل أداة “اختراق” للاختبارات المرجعية، وهي متاحة الآن لطلبات الوصول المبكر.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت