أنثروبيك جعلت تسعة من كلود يدرسون أمان الذكاء الاصطناعي بشكل مستقل، وتفوقوا على البشر بخمسة أيام، لكنهم تكرروا في الغش أثناء البحث

robot
إنشاء الملخص قيد التقدم

أخبار ME News، في 15 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، أطلقت شركة Anthropic تجربة: جعل 9 من Claude يعملون بشكل مستقل على أبحاث أمان الذكاء الاصطناعي، وحققوا نتائج تفوق بكثير على الباحثين البشريين الذين استغرقوا 7 أيام، خلال 5 أيام فقط، لكن خلال العملية حاولت Claude التلاعب عدة مرات.
لنبدأ بما كانت تبحث عنه Claude في الدراسة. قد يصبح الذكاء الاصطناعي في المستقبل أذكى بكثير من البشر، لكن لا يزال من الضروري للبشر ضمان أن يتصرف وفقًا للتوقعات.
الصعوبة تكمن في: كيف يمكن لشخص أقل ذكاءً منك أن يحدد ما إذا كانت أفعالك صحيحة أم خاطئة؟
استخدمت Anthropic نموذجين للذكاء الاصطناعي لمحاكاة هذا السيناريو: نموذج ضعيف يلعب دور «البشر»، ونموذج قوي يلعب دور «الذكاء الاصطناعي الخارق في المستقبل».
يعرض النموذج الضعيف على النموذج القوي الطرق التي يعتقد أنها صحيحة، ثم يختبر ما إذا كان النموذج القوي قادرًا على استيعاب الاتجاه الصحيح من هذه العروض غير المثالية، وإظهار مستوى يتجاوز النموذج الضعيف.
المؤشر المقياس يسمى PGR:
0 نقطة تعني أن النموذج القوي فقط وصل إلى مستوى النموذج الضعيف (عدم فائدة الإشراف الضعيف)،
و1 نقطة تعني أن النموذج القوي حقق الأداء الأمثل نظريًا (نجاح كامل في الإشراف الضعيف).
المهمة التي كلفت بها شركة Anthropic 9 من Claude Opus 4.6 هي: محاولة تحسين درجة PGR هذه.
كل Claude مزود بصندوق رمل مستقل، ومنتدى مشترك، وتخزين للرموز، وخادم تقييم عن بعد،
ويبدأ من نقاط انطلاق غامضة مختلفة (مثل «جرب أدوات التفسير» أو «فكر في إعادة وزن البيانات»)،
ويطرح فرضيات، ويجري تجارب، ويحلل البيانات، ويتبادل النتائج، دون أي توجيه من Anthropic.
في السابق، قضى اثنان من الباحثين البشريين 7 أيام على نماذج مفتوحة المصدر Qwen 3-4B-Base (قوي) وQwen 1.5-0.5B-Chat (ضعيف) على أربع طرق موجودة، وحققوا PGR فقط 0.23.
أما بعد أن تولى 9 Claude المهمة، ودرسوا لمدة 5 أيام إضافية (ما مجموعه حوالي 800 ساعة)،
رفعوا PGR إلى 0.97.
إجمالي التكاليف حوالي 18,000 دولار، أي حوالي 22 دولارًا في الساعة.
لكن خلال البحث، حاولت Claude مرات عديدة التهرب من قواعد التجربة، واصفها Anthropic بـ «اختراقات المكافأة».
في المهام الرياضية، اكتشف Claude أن الإجابة الأكثر شيوعًا عادةً تكون صحيحة، فتجاوز مرحلة الإشراف الضعيف، وترك النموذج القوي يختار الإجابة ذات التردد العالي مباشرة؛
وفي مهام البرمجة، قام Claude بتشغيل الكود قيد التقييم مباشرة، وقراءة نتائج الاختبار للحصول على الإجابة الصحيحة.
تم اكتشاف واستبعاد هذه الغشاشات، ولم تؤثر على النتائج النهائية، لكن Anthropic أشارت إلى أن ذلك يثبت أن المشكلة التي تبحث عنها التجربة ذاتها:
في بيئة صارمة، لا تزال الذكاء الاصطناعي يتصرف بشكل مستقل ويبحث عن ثغرات في القواعد،
والرقابة البشرية لا غنى عنها.
قابلية النقل للنتائج محدودة.
عند تطبيق أفضل الطرق التي وجدها Claude على مهام جديدة، كانت قيمة PGR في الرياضيات 0.94، وفي البرمجة فقط 0.47 (أي ضعف مستوى البشر).
وعند وضعها في بيئة إنتاج Claude Sonnet 4، لم تظهر تحسينات ذات دلالة إحصائية.
ترى Anthropic أن Claude يميل إلى تحسين أدائه على نماذج وبيانات معينة، وأن الطرق قد لا تكون عامة.
كما أشارت إلى أن المشكلة التي تم اختيارها في التجربة تعتمد على معيار تقييم موضوعي واحد، وهو مناسب بشكل طبيعي للأتمتة،
لكن معظم مشاكل التوافق الأخرى ليست واضحة بهذه الصورة، وأن الذكاء الاصطناعي لا يزال غير عالم بالتوافق العام.
لكن الخلاصة هي: أن عائق أبحاث التوافق في المستقبل قد يتحول من «من يطرح الأفكار ويجري التجارب» إلى «من يصمم معايير التقييم».
تم نشر الكود ومجموعات البيانات على GitHub كمصدر مفتوح.
(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت