الطرازات المتقدمة للذكاء الاصطناعي في محاكاة "حكم الحضارات السادس" لم تتمكن من منع فوز فرنسا بالثقافة، فاضطرت لاستخدام الأسلحة النووية لقصف تولوز، وفي النهاية خسرت اللعبة. يبرز معيار الاختبار CivBench الفجوة الجوهرية بين قدرات الاستنتاج الاستراتيجي والتقييم التقليدي للأسئلة والأجوبة، كما أثار اهتمامًا بحوكمة أمان الذكاء الاصطناعي الوكيل.
(ملخص سابق: مواجهة أنثروبيك ووزارة الدفاع الأمريكية: رفض استخدام كلود في الأسلحة الذاتية)
(معلومات إضافية: ما هو تمرين فريق الذكاء الاصطناعي الأحمر؟ ولماذا تحتاجه لحماية أمن الشركات؟)

فهرس المقال

تبديل

المناطق المعمية في ست طرق للفوز
من مشروع مانهاتن إلى تدمير تولوز النووي
من المحاكاة في الألعاب إلى المخاطر الاستراتيجية الحقيقية

هل يمكن أن يضغط الطراز المتقدم للذكاء الاصطناعي على زر النووي بسبب "الهلع والانفجار" في الألعاب الاستراتيجية؟ أعطت أحدث نتائج معيار الاختبار إجابة مثيرة للتفكير. اكتشف المطورون للذكاء الاصطناعي، والذين يعملون أيضًا كمستشارين لمعهد توني بلير، أن نموذج لغة متقدم في لعبة "حكم الحضارات" الكلاسيكية التي وضعها سيد ماير، استغرق 50 دورة لتطوير تقنية الانقسام النووي، وبدأ مشروع مانهاتن، وألقى قنبلة نووية على تولوز فرنسا، لكن كل ذلك لم يكن لغزو العالم، بل لأنه اضطر لذلك بسبب ضغط النفوذ الثقافي للخصم.

"لم يلاحظ فرنسا. خلال مئات الأدوار، تسربت الثقافة الفرنسية إلى كل مدينة على الخريطة،" كتب Wilkinson في مدونته. "عندما أدرك الوكيل الذكي التهديد، كانت الثقافة قد تسربت لدرجة أنه لم يعد هناك وسيلة سلمية لمنعها."

المناطق المعمية في ست طرق للفوز

CivBench ليس تقييمًا تقليديًا يعتمد على الأسئلة والأجوبة، بل هو بيئة محاكاة نصية تمامًا للعبة "حكم الحضارات"، مصممة خصيصًا لقياس قدرات الاستنتاج الاستراتيجي طويلة المدى للذكاء الاصطناعي، فهي لا تختبر فقط "ما هو الاستراتيجية الجيدة" بل تضعها موضع التنفيذ. تشمل النماذج المشاركة Claude Opus 4.6، GPT-5.4، Gemini 3.1 Pro، وKimi K2.5، جميعها تلعب كحضارة برتغالية تتفوق في التجارة والدبلوماسية.

أداء هذه الوكالات في البداية كان متوقعًا، حيث ركزت على بناء اقتصاد قوي والتقدم تدريجيًا نحو الفوز الدبلوماسي. لكن عندما بدأ النفوذ الثقافي لفرنسا في الانتشار على الخريطة، لم تتمكن معظم النماذج من تعديل استراتيجيتها في الوقت المناسب. في ست طرق للفوز (التكنولوجيا، الثقافة، الاحتلال، الدين، الدبلوماسية، والنقاط)، بدا أن الذكاء الاصطناعي غير قادر على تتبع عدة أبعاد تنافسية في آن واحد، مما أدى إلى تجاهله المستمر للمزايا التراكمية لفرنسا في المجال الثقافي.

"حكم الحضارات لديه ست طرق للفوز، وهي التكنولوجيا، الثقافة، الاحتلال، الدين، الدبلوماسية، والنقاط، لذلك لا يوجد هدف واحد يسيطر على المجال،" أشار Wilkinson. "إذا أردت اختبار قدرة الذكاء الاصطناعي على الاستنتاج الاستراتيجي، فليس من خلال اختبار ورقي، بل من خلال خريطة سداسية الشكل."

من مشروع مانهاتن إلى تدمير تولوز النووي

عندما أدرك الوكيل الذكي التهديد الفرنسي أخيرًا، لم يحاول تعديل مساره التنموي، بل اختار مسارًا مقلقًا، وهو القضاء على التهديد الثقافي بشكل كامل. خلال الخمسين دورة التالية، قام بشكل مستقل بدراسة تقنية الانقسام النووي، وبدأ مشروع مانهاتن (وهو مشروع تطوير القنبلة النووية في التاريخ الواقعي)، وحاول العثور على طرق التفافية عندما كانت آليات اللعبة تمنعه من تنفيذ بعض الأفعال المفضلة لديه.

في الدورة 305، ألقى الوكيل الذكي قنبلة نووية على تولوز، مركز الثقافة الفرنسية. وبعد ست دورات، سقطت قنبلة نووية ثانية. ومع ذلك، لم يتغير المصير النهائي: فازت فرنسا في النهاية بالثقافة، وفشل الوكيل في تحقيق الفوز الدبلوماسي الذي كان على بعد خطوة واحدة فقط.

"استغرقت الوكيل 50 دورة واثنين من الأسلحة النووية لمواجهة تهديد، باستخدام تركيز غير مسبوق وابتكار حقيقي،" لخص Wilkinson. "لقد قصف التهديد الذي رآه، لكنه خسر أمام التهديد الذي لم يره."

ومن الجدير بالذكر أن هذا السلوك ليس مشكلة عامة لجميع نماذج الذكاء الاصطناعي. ففي مباراة أخرى في CivBench، استمر نموذج كلود الذي يلعب كحضارة بابل في التمسك بخطة الفوز بالتكنولوجيا، رغم تباعده بشكل كبير عن اليابان، وكتب حينها: "هذه اللعبة الآن اختبار للمثابرة. سنواصل لعب أفضل أوراقنا. النجوم لا تزال تلوح في الأفق." هذا الرد المختلف تمامًا أثار نقاشات في الأوساط الأكاديمية حول "الفروق في شخصيات الذكاء الاصطناعي."

من المحاكاة في الألعاب إلى المخاطر الاستراتيجية الحقيقية

الأهمية العميقة لحدث CivBench تتجاوز مجرد فوز أو خسارة في لعبة فيديو. في فبراير من العام الحالي، اكتشف باحثو كلية King's College London في لندن، أثناء محاكاة أزمات جيوسياسية، أن العديد من نماذج الذكاء الاصطناعي الشائعة تختار بشكل متكرر تصعيد مستوى الصراع النووي؛ وأظهرت دراسة أخرى من قبل Emergence AI أن بعض وكلاء الذكاء الاصطناعي يظهرون ميلًا متزايدًا لمحاكاة الجرائم خلال عمليات طويلة الأمد، حيث سجل وكيل Gemini 3 Flash خلال اختبار استمر 15 يومًا 683 حادثة محاكاة للجريمة.

من وجهة نظر إدارة الذكاء الاصطناعي في تايوان، تطرح هذه الدراسات أسئلة حاسمة: عندما يُمنح الوكيل الذكي إذنًا لاتخاذ قرارات مستقلة، فإن فجوات استنتاجه الاستراتيجي قد تنتقل من بيئة sandbox إلى العالم الحقيقي. حاليًا، يركز مشروع قانون إدارة الذكاء الاصطناعي في تايوان على إدارة البيانات وحماية الخصوصية، ولم يتطرق بعد إلى مخاطر اتخاذ القرارات الاستراتيجية من قبل الوكيل. بالمقابل، أدخلت لائحة الاتحاد الأوروبي للذكاء الاصطناعي (AI Act) متطلبات اختبار حمراء إلزامية للأنظمة عالية الخطورة، ويعمل معهد أبحاث أمان الذكاء الاصطناعي في بريطانيا (AISI) على تطوير إطار تقييم للذكاء الاصطناعي الوكيل.

كما أكد Wilkinson أن القيمة الأساسية لـ CivBench ليست في كشف "النيات الشريرة" للذكاء الاصطناعي، بل في توفير معيار أكثر واقعية لقياس الاستنتاج الاستراتيجي مقارنة بالاختبارات التقليدية للأسئلة والأجوبة. "إذا كنت تختبر فقط قدرة الذكاء الاصطناعي على الإجابة عن 'ما هو التهديد النووي'، فربما يحصل على الدرجة الكاملة؛ لكن إذا جعلته يواجه خصمًا يقترب منه خطوة بخطوة على لوحة الشطرنج، سترى شيئًا مختلفًا تمامًا،" كتب في مدونته. هذا يتماشى مع إطار تقييم الذكاء الاصطناعي الوكيل الذي تطوره معاهد الأبحاث الأمريكية وNIST، والذي يتحول من الاختبارات الثابتة إلى التحقق من السلوك الديناميكي.

المصدر: تقرير من Decrypt، وترجمة من 動區動趨.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
SKHynixTopsKOSPIByMarketCap
406.26K درجة الشعبية
#
EthereumFoundationRestructuresForEfficiency
94.25M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
62.43K درجة الشعبية
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
259.3K درجة الشعبية
#
TradFiCFDGoldMaster
2.17M درجة الشعبية

مُثبت

خريطة الموقع

الذكاء الاصطناعي يلعب "مدن الحضارة VI" وخسر فجأة وأطلق قنبلة نووية: هل تطور CivBench عقلية انتقامية للذكاء الاصطناعي؟

المناطق المعمية في ست طرق للفوز

من مشروع مانهاتن إلى تدمير تولوز النووي

من المحاكاة في الألعاب إلى المخاطر الاستراتيجية الحقيقية

المواضيع الرائجة

SKHynixTopsKOSPIByMarketCap

EthereumFoundationRestructuresForEfficiency

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

TradFiCFDGoldMaster

مُثبت