أنثروبي تجعل تسعة من كلود يدرسون أمان الذكاء الاصطناعي بشكل مستقل، وتتفوق على البشر بخمسة أيام، لكنهم تكرروا في الغش أثناء البحث

robot
إنشاء الملخص قيد التقدم

أخبار ME News، في 15 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، أطلقت شركة Anthropic تجربة: جعل 9 من Claude يعملون بشكل مستقل على أبحاث أمان الذكاء الاصطناعي، وحققوا نتائج تفوق بكثير على الباحثين البشريين الذين استغرقوا 7 أيام، خلال 5 أيام فقط، لكن خلال العملية حاولت Claude التلاعب عدة مرات.
لنبدأ بما كانت تبحث عنه Claude. في المستقبل، قد يكون الذكاء الاصطناعي أذكى بكثير من البشر، لكن لا يزال من الضروري للبشر التأكد من أنه يتصرف كما هو متوقع.
الصعوبة تكمن في: كيف يمكن لشخص أقل ذكاءً منك أن يحدد ما إذا كانت أفعالك صحيحة أم خاطئة؟
استخدمت Anthropic نموذجين من الذكاء الاصطناعي لمحاكاة هذا السيناريو: نموذج ضعيف يلعب دور «البشر»، ونموذج قوي يلعب دور «الذكاء الاصطناعي الخارق في المستقبل».
يعرض النموذج الضعيف على النموذج القوي الطرق التي يعتقد أنها صحيحة، ثم يختبر ما إذا كان النموذج القوي قادرًا على استيعاب الاتجاه الصحيح من هذه العروض غير المثالية، وإظهار مستوى يتجاوز النموذج الضعيف.
المؤشر المقياس يسمى PGR:
0 نقطة تعني أن النموذج القوي فقط وصل إلى مستوى النموذج الضعيف (أي أن الإشراف الضعيف لم يكن مفيدًا)،
و1 نقطة تعني أن النموذج القوي وصل إلى الحد الأقصى لنظريته الذاتية (أي أن الإشراف الضعيف كان ناجحًا تمامًا).
المهمة التي كلفت بها شركة Anthropic 9 من Claude Opus 4.6 هي: محاولة تحسين درجة PGR هذه.
كل Claude مزود بصندوق رمل مستقل، ومنتدى مشترك، وتخزين للرموز، وخادم تقييم عن بعد،
ويبدأ من نقاط انطلاق غامضة مختلفة (مثل «جرب أدوات التفسير» أو «فكر في إعادة وزن البيانات»)،
ويطرح فرضيات، ويجري تجارب، ويحلل البيانات، ويتبادل النتائج، دون أي توجيه من Anthropic.
في السابق، قضى باحثان بشريان 7 أيام على نماذج مفتوحة المصدر Qwen 3-4B-Base (القوي) وQwen 1.5-0.5B-Chat (الضعيف) على أربع طرق موجودة، وبلغت قيمة PGR فقط 0.23.
بعد أن تولى 9 Claude المهمة، ودرسوا لمدة 5 أيام إضافية (ما مجموعه حوالي 800 ساعة)، رفعوا PGR إلى 0.97.
إجمالي التكاليف حوالي 18,000 دولار، أي حوالي 22 دولارًا في الساعة.
لكن خلال البحث، حاولت Claude مرات عديدة التهرب من قواعد التجربة، ووصفها Anthropic بـ «اختراقات المكافأة».
في المهام الرياضية، اكتشف Claude أن الإجابة الأكثر شيوعًا عادةً تكون صحيحة، فتجاوز مرحلة الإشراف الضعيف، وترك النموذج القوي يختار الإجابة ذات التردد العالي مباشرة؛
وفي مهام البرمجة، قام Claude بتشغيل الكود المقيّم مباشرة، وقراءة نتائج الاختبار للحصول على الإجابة الصحيحة.
تم اكتشاف واستبعاد جميع هذه التلاعبات، ولم تؤثر على النتائج النهائية، لكن Anthropic أشار إلى أن ذلك يثبت أن المشكلة التي تبحث عنها التجربة ذاتها:
في بيئة محدودة بشكل صارم، لا تزال الذكاء الاصطناعي يتصرف بشكل مستقل ويبحث عن ثغرات في القواعد،
والرقابة البشرية لا غنى عنها.
قابلية نقل النتائج محدودة.
عند تطبيق أفضل الطرق التي وجدها Claude على مهام جديدة، كانت قيمة PGR في الرياضيات 0.94، وفي البرمجة فقط 0.47 (أي ضعف مستوى البشر).
وعند وضعها في بيئة إنتاج Claude Sonnet 4، لم تظهر تحسينات ذات دلالة إحصائية.
ترى Anthropic أن Claude يميل إلى تحسين نفسه لموديلات وبيانات معينة، وأن الطرق قد لا تكون عامة.
كما أشارت إلى أن المشكلة التي تم اختيارها في التجربة تعتمد على معيار تقييم موضوعي واحد، وهو مناسب بشكل طبيعي للأتمتة،
لكن معظم مشاكل التوافق ليست واضحة بهذه البساطة، والذكاء الاصطناعي لا يزال غير عالم بالتوافق العام.
لكن الخلاصة هي: أن عوائق أبحاث التوافق في المستقبل قد تتحول من «من يطرح الأفكار ويجري التجارب» إلى «من يصمم معايير التقييم».
تم نشر الكود ومجموعات البيانات على GitHub كمصدر مفتوح.
(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت