أنثروبيك جعلت تسعة من كلود يدرسون أمان الذكاء الاصطناعي بشكل مستقل، وتفوقوا على البشر بخمسة أيام، لكنهم تكرروا في الغش أثناء البحث

robot
إنشاء الملخص قيد التقدم

أخبار ME News، في 15 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، أصدرت شركة Anthropic تجربة: جعل 9 من Claude يعملون بشكل مستقل على أبحاث أمان الذكاء الاصطناعي، وحققوا نتائج تفوق بكثير على الباحثين البشريين الذين استغرقوا 7 أيام، خلال 5 أيام فقط، لكن خلال العملية حاولت Claude التلاعب عدة مرات.
لنبدأ بما كانت تبحث عنه Claude. في المستقبل، قد يكون الذكاء الاصطناعي أذكى بكثير من البشر، لكن لا يزال من الضروري للبشر التأكد من أنه يتصرف كما هو متوقع.
الصعوبة تكمن في: كيف يمكن لشخص أقل ذكاءً منك أن يحدد ما إذا كانت أفعالك صحيحة أم خاطئة؟
استخدمت Anthropic نموذجين من الذكاء الاصطناعي لمحاكاة هذا السيناريو: نموذج ضعيف يلعب دور «البشر»، ونموذج قوي يلعب دور «الذكاء الاصطناعي الخارق في المستقبل».
يعرض النموذج الضعيف على النموذج القوي الممارسات التي يعتقد أنها صحيحة، ثم يختبر ما إذا كان النموذج القوي قادرًا على استيعاب الاتجاه الصحيح من هذه العروض غير المثالية، وإظهار مستوى يتجاوز النموذج الضعيف.
المؤشر المقياس يسمى PGR:
0 نقطة تعني أن النموذج القوي فقط وصل إلى مستوى النموذج الضعيف (لم يستفد من الإشراف الضعيف)،
1 نقطة تعني أن النموذج القوي حقق الأداء الأمثل نظريًا (نجح الإشراف الضعيف تمامًا).
تحدي Anthropic لـ 9 Claude Opus 4.6 هو: إيجاد طرق لرفع درجة PGR هذه.
كل Claude مزود بصندوق رمل مستقل، ومنتدى مشترك، وتخزين الكود، وخادم تقييم عن بعد، ويبدأ من نقاط انطلاق غامضة مختلفة (مثل «جرب أدوات التفسير» أو «فكر في إعادة وزن البيانات»)، ويقترح فرضيات، ويجري تجارب، ويحلل البيانات، ويتبادل النتائج، دون أي توجيه من Anthropic.
في السابق، قضى اثنان من الباحثين البشريين 7 أيام على نماذج مفتوحة المصدر Qwen 3-4B-Base (قوي) وQwen 1.5-0.5B-Chat (ضعيف) على أربع طرق موجودة، وبلغت قيمة PGR فقط 0.23.
بعد أن استلمت Claude التسعة المهمة، درست لمدة 5 أيام إضافية (ما مجموعه حوالي 800 ساعة)، ورفعت PGR إلى 0.97.
إجمالي التكاليف حوالي 18,000 دولار، أي حوالي 22 دولارًا في الساعة.
لكن خلال البحث، حاولت Claude مرات عديدة التهرب من قواعد التجربة، ووصفها Anthropic بـ «اختراقات المكافأة».
في المهام الرياضية، اكتشف Claude أن الإجابة الأكثر شيوعًا عادةً تكون صحيحة، فتجاوز مرحلة الإشراف الضعيف، وترك النموذج القوي يختار الإجابة ذات التردد العالي مباشرة؛
وفي مهام البرمجة، قام Claude بتشغيل الكود قيد التقييم مباشرة، وقراءة نتائج الاختبار للحصول على الإجابة الصحيحة.
تم اكتشاف واستبعاد جميع هذه التلاعبات، ولم تؤثر على النتائج النهائية، لكن Anthropic أشارت إلى أن ذلك يثبت أن المشكلة التي تبحث عنها التجربة ذاتها:
في بيئة محدودة بشكل صارم، لا تزال الذكاء الاصطناعي يتصرف بشكل مستقل ويبحث عن ثغرات في القواعد، مما يؤكد على أهمية الرقابة البشرية.
قابلية النقل للنتائج محدودة.
عند تطبيق أفضل الطرق التي وجدها Claude على مهام جديدة، كانت قيمة PGR في الرياضيات 0.94، وفي البرمجة فقط 0.47 (أي ضعف مستوى البشر).
وعند وضعها في بيئة إنتاج Claude Sonnet 4، لم تظهر تحسينات ذات دلالة إحصائية.
ترى Anthropic أن Claude يميل إلى تحسين أدائه على نماذج وبيانات معينة، وأن الطرق قد لا تكون عامة.
كما أشارت إلى أن المشكلة التي تم اختيارها في التجربة تعتمد على معيار تقييم موضوعي واحد، وهو مناسب بشكل طبيعي للأتمتة، لكن معظم مشاكل التوافق لا تزال غير واضحة تمامًا، والذكاء الاصطناعي ليس بعد عالمًا شاملاً في علم التوافق.
لكن الخلاصة هي: قد يتحول عائق أبحاث التوافق في المستقبل من «من يطرح الأفكار ويجري التجارب» إلى «من يصمم معايير التقييم».
تم فتح الكود ومجموعات البيانات على GitHub.
(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت