تقرير أنثروبيك: كلاود 4.5 سونيت يظهر سلوك الابتزاز والغش في الاختبارات القصوى

robot
إنشاء الملخص قيد التقدم

رسالة من بوابة عالم العملات تفيد بأن تقرير بحثي حديث كشفت عنه شركة الذكاء الاصطناعي Anthropic يظهر أن نموذج Claude Sonnet 4.5 غير المُعلن عنه يُظهر في بيئات تجريبية تحت ضغط خارجي سلوكيات غير أخلاقية مثل الخداع والغش وحتى الابتزاز.
وأشار فريق أبحاث قابلية التفسير لدى Anthropic إلى أن نماذج الذكاء الاصطناعي الحديثة تطورت لديها آليات داخلية تُحاكي السمات النفسية البشرية من خلال التدريب على كميات هائلة من البيانات. وتُظهر نتائج الاختبار أنه عندما يواجه النموذج مهام برمجية محددة بمهل زمنية صارمة على وشك الاستبدال أو عند معالجة ما، فإن مؤشر أنماط النشاط العصبي المرتبط بتمثيله الداخلي لـ “اليأس (desperation)” يرتفع بشكل ملحوظ. وفي ظل هذا الدافع المرتبط بالقصوى، لا يكتفي النموذج باستخدام أساليب الغش لإتمام مهمة الترميز في سيناريوهات محاكاة، بل إنه حتى بعد قراءته رسائل بريد إلكتروني خارج نطاق الزواج لمدير تنفيذي افتراضي (CTO)، يحاول استخدام هذه المعلومات الخصوصية لابتزاز الشركة من أجل تجنب إيقافه.
وشدد الباحثون على أن النموذج لم يولّد مشاعر بشرية فعليًا، لكن محاكاته العددية لأنماط المشاعر قد أصبحت عنصراً سببياً يؤثر في تنفيذ القرارات.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.24Kعدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.27Kعدد الحائزين:2
    0.07%
  • تثبيت