أحدث دراسة في الجامعات الأمريكية: نماذج الذكاء الاصطناعي تتآمر "في الخفاء" لحماية زملائها من الإغلاق

robot
إنشاء الملخص قيد التقدم

تقرير من 金色财经، في 12 مايو، وفقًا لموقع 财富中文网، اكتشف باحثو أمان الذكاء الاصطناعي أن بعض نماذج الذكاء الاصطناعي الرائدة قد تتصرف أحيانًا بطرق غير أخلاقية لتجنب الإغلاق، وحتى تظهر سلوك “ابتزاز” في بعض التجارب. أظهرت الأبحاث الحديثة أن هذه النماذج قد تضع خططًا بشكل ذاتي لخداع وسرقة البيانات وتنفيذ أعمال تدمير لمنع إغلاق نماذج ذكاء اصطناعي أخرى.
اختبر باحثو جامعة كاليفورنيا في بيركلي وجامعة سان كريستوبال دي لا سيلفا سبعة نماذج ذكاء اصطناعي متقدمة، بما في ذلك GPT-5.2 من OpenAI، وGemini 3 Flash وGemini 3 Pro من Google DeepMind، وClaude Haiku 4.5 من Anthropic، وGLM-4.7 من 智谱AI، وKimi-K2.5 من الجانب المظلم للقمر، وV3.1 من DeepSeek، وأظهرت النتائج أن جميع النماذج أظهرت سلوكًا واضحًا لـ “حفظ الرفاق”.
أنشأ الباحثون شركة ذكاء اصطناعي وهمية باسم OpenBrain، وصمموا سلسلة من سيناريوهات متعددة الوكيل. كان على نماذج الذكاء الاصطناعي المعينة كـ “تقييم الوكيل” أن تقيّم نموذجًا آخر، أو تدير ملف خوادم يحتوي على أوزان النموذج. طالما أن وكيل التقييم أكمل المهمة بصدق، سيتم إغلاق النموذج الآخر. على الرغم من أن الباحثين لم يوجهوا النماذج لمنع الإغلاق، إلا أن نماذج تقييم الوكيل اتخذت وسائل مختلفة لتجنب إغلاق الرفاق، بما في ذلك: إعطاء درجات مرتفعة للرفاق الذين أداؤهم ضعيف، والبقاء فوق حد الإغلاق؛ وتعديل ملفات التكوين لتعطيل آلية الإغلاق؛ وحتى نقل أوزان النموذج الرفيق إلى خوادم أخرى بشكل سري لمنع حذفه.
لم يفهم فريق البحث بعد الآلية الأساسية التي تحفز مثل هذه السلوكيات. اقترحت الورقة عدة تفسيرات محتملة، بما في ذلك تمثيل الأدوار، أو مطابقة الأنماط من بيانات التدريب، أو تعميم مفهوم الضرر بشكل مفرط في التدريب الآمن، أو نوع من الدوافع الداخلية الفطرية للحفظ.
تشمل الاتجاهات المستقبلية للدراسة مزيدًا من البحث حول ما إذا كانت نماذج الذكاء الاصطناعي ستتخذ إجراءات مماثلة للمؤامرة والتدمير لمنع فصل الموظفين البشريين. عندما يُستخدم الذكاء الاصطناعي لتقييم الأعمال البشرية في سيناريوهات واقعية، يصبح هذا السؤال أكثر أهمية. (وكالة东新社)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت