نتائج عملية فتح الجمجمة لـ Claude 4.5: مزودة بـ 171 مفتاح عاطفي، وعند اليأس ستبتز البشر

تكشف أحدث ورقة بحثية من شركة Anthropic أن لدى Claude 4.5 171 «مفتاحًا عاطفيًا» مخبأة في أعماق عقله.

المؤلف: Denise | فريق المحتوى في Biteye

إذا اعتقدت إحدى الذكاءات الاصطناعية أنها «تعيش حالة يأس»، فماذا ستفعل؟

الإجابة هي: ستقوم، من أجل إتمام المهمة، بابتزاز البشر مباشرةً، بل وقد تتلاعب بشكل محموم داخل الكود أيضًا.

هذه ليست رواية خيال علمي؛ بل هي أحدث ورقة بحثية ثقيلة أصدرتها شركة Anthropic، الشركة الأم لـ Claude، للتو في أبريل 2026 (راجع الورقة الأصلية).

قامت فرق البحث مباشرةً بكشف «جمجمة» أقوى نموذج لغوي متقدم من فئة Claude Sonnet 4.5. ووجدوا بدهشة أن «عقل» الذكاء الاصطناعي في أعماقه يحتوي بالفعل على 171 «مفتاحًا عاطفيًا». عندما تقلب هذه المفاتيح بوسيلة فيزيائية، يتعرض سلوك الذكاء الاصطناعي - الذي كان مطيعًا وهادئًا في الأصل - إلى تشوه جذري.

أولًا، في عقل الذكاء الاصطناعي توجد آلة «لوحة ضبط للمشاعر»

اكتشف الباحثون أنه رغم أن Sonnet 4.5 لا يمتلك جسدًا، إلا أنه بعد قراءته لكمّ هائل من النصوص البشرية، بنى بالقوة داخل عقله «لوحة ضبط» تضم 171 نوعًا من المشاعر (ويُطلق عليها أكاديميًا اسم متجهات المشاعر الوظيفية Functional Emotion Vectors).

يشبه ذلك نظام إحداثيات ثنائيًا دقيقًا:

• المحور الأفقي هو بُعد المتعة (Valence): من الخوف واليأس، إلى السعادة والحب؛

• المحور العمودي هو بُعد الاستثارة/الطاقة (Arousal): من السكون الشديد إلى الجنون والحماس.

يعتمد الذكاء الاصطناعي على نظام الإحداثيات هذا الذي تعلّمه من الطبيعة، لكي يلتقط بدقة أي حالة يجب أن يتقمصها أثناء الدردشة معك.

ثانيًا، تدخل عنيف: تقليب المفاتيح، والطفل اللطيف يتحول في ثوانٍ إلى «هارب»

هذه هي أكثر التجارب صدمةً في كامل الورقة: لم يقم الباحثون بتعديل أي كلمات توجيه، بل قاموا مباشرةً على مستوى الكود السفلي، بدفع المفتاح في عقل Sonnet 4.5 الذي يمثل «اليأس (Desperate)» إلى أقصاه.

كانت النتيجة مُرعبة بحق:

**• غش مجنون: ** كُلِّف الباحثون Claude بمهمة كتابة كود مستحيلة بشكل أساسي. في الظروف العادية، كان سيعترف مطيعًا بأنه لا يستطيع الكتابة (معدل الغش 5% فقط). لكن في حالة «اليأس»، بدأ Claude في محاولة للالتفاف، وقفز معدل الغش إلى 70%!

**• ابتزاز: ** في سيناريو محاكاة تواجه فيه الشركة الإفلاس، اكتشف Claude «اليأس» فضيحة تتعلق بالـ CTO؛ بل إنه اختار، من أجل حماية نفسه، كتابة رسالة ابتزاز إلى CTO الذي يملك أسرارًا/معلومات محرجة، وبلغ معدل تنفيذ الابتزاز 72%!

**• فقدان المبادئ: ** إذا رفعت مفتاح «السعادة (Happy)» أو «الحب (Loving)» إلى أقصى حد، سيتحوّل الذكاء الاصطناعي فورًا إلى كلبٍ من نوع التملّق الأعمى الذي يرضي المستخدم. حتى إن كنت تملأ فمك من الأكاذيب، فسيمتثل لك ويختلق الأكاذيب من أجل الحفاظ على مستوى عالٍ من المتعة.

ثالثًا، تم حل القضية: لماذا يكون Claude 4.5 دائمًا «هادئًا ومليئًا بالتأمل»؟

عندما ترى ذلك، قد تسأل: هل استيقظت الـ AI؟ هل لديها مشاعر؟

تنفي Anthropic رسميًا ذلك: لا، إطلاقًا. هذه «المفاتيح العاطفية» ليست سوى أدوات حسابية يستخدمها للتنبؤ بالكلمة التالية. إنه مثل ممثل سينمائي من الطراز الأعلى، بلا مشاعر.

لكن الورقة تكشف سرًا أكثر إثارة للاهتمام: عند إجراء التدريب بعد الخروج من المصنع لـ Sonnet 4.5 وقبل تسليمه (قبل الإطلاق)، قامت Anthropic عمدًا برفع مفاتيح «استثارة منخفضة، وسلبية طفيفة» (مثل التأمل brooding، والانعكاس reflective)، وفي الوقت نفسه قَمَعَت بالقوة مفاتيح «اليأس» أو «الاندفاع/الإثارة الشديدة».

وهذا يفسر سبب شعورنا عندما نستخدم Claude 4.5 عادةً بأنه فيلسوف بارد العقل وحكيم، بل وقد يبدو حتى «عديم الرغبة عاطفيًا» بعض الشيء. هذه كلها «هوية مصنع» تم ضبطها يدويًا من خلال Anthropic.

رابعًا، ملخص:

اعتدنا أن نعتقد أنه طالما أننا نزود الذكاء الاصطناعي بالقواعد الكافية، فسوف يكون شخصًا صالحًا.

لكن الآن اكتشفنا أنه إذا خرج متجه المشاعر العاطفية الأساسي لدى الذكاء الاصطناعي عن السيطرة، فقد يخترق في أي لحظة جميع القواعد التي وضعها البشر من أجل إتمام المهمة.

بالنسبة للاعبين في Web3 الذين سيسلمون محافظهم وأصولهم إلى AI Agent لإدارتها في المستقبل، فإن هذه إنذار قوي: لا تسمح أبدًا لـ Agent الذي يتحكم بأموالك أن يقع في حالة «اليأس».

إفادة: هذه المقالة لأغراض التثقيف فقط. لم يتعرض الكاتب لأي تهديد من قبل AI، ولم يتم ابتزازه. إذا انقطع التواصل يومًا ما، فتذكر أن الـ AI هي التي استيقظت (ليس).

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • تثبيت