استشارية سابقة لرئيس الوزراء البريطاني تستخدم لعبة "سيفن وورلدز" لاختبار التفكير الاستنتاجي طويل المدى للذكاء الاصطناعي، وتكتشف أن النموذج يعاني من نقاط عمياء للمعلومات وارتباط مفرط، حيث يتخلى عن الميزة الدبلوماسية لصنع قنابل نووية لقصف الخصم، مما يكشف عن محدودية تقنياته عند تطبيقها على إدارة الشؤون السياسية الواقعية.

عندما يلعب الذكاء الاصطناعي لعبة حضارة 6، يقرر إلقاء قنبلتين نوويتين

يلعب الذكاء الاصطناعي "سيفن وورلدز" ويختار صنع الأسلحة النووية! مؤخرًا، استخدم مطور ذكاء اصطناعي معيار CivBench لاختبار، حيث تحدى نموذج اللغة الكبير (LLM) لعبة الاستراتيجية "حضارة 6" (Civilization VI). في التجربة، رغم أن الوكيل الذكي كان يتفوق اقتصاديًا بشكل مطلق، إلا أنه عند مواجهة تهديد، اختار استهلاك 50 دورة لصنع قنبلتين نوويتين لقصف الخصم، بدلاً من استخدام الوسائل الدبلوماسية التي كانت تضمن الفوز، ومع ذلك، فاز في النهاية حضارة فرنسا المنافسة.

لماذا جعل الذكاء الاصطناعي يلعب حضارة 6؟

المصمم ليام ويلكينسون، الذي كان مستشارًا سابقًا لرئيس الوزراء البريطاني توني بلير، ويعمل حاليًا في معهد توني بلير للأبحاث، قال: اختيار "حضارة 6" للاختبار يرجع إلى أن صنع السياسات يتطلب التعامل مع ردود الفعل غير المؤكدة، وهو أمر مشابه جدًا لما تتطلبه الألعاب الاستراتيجية.

أظهر أداة الاختبار التي طورها سابقًا، GovBench، أن حتى GPT-5، الذي حصل على 99.26% في أسئلة الاختيار من متعدد، يقتصر على قدرات استرجاع وذاكرة ممتازة فقط. ولتقييم التفكير الحقيقي والتخطيط طويل المدى، أنشأ النموذج عبر محاكمة تصحيح محرك "حضارة 6" خادم بروتوكول السياق (MCP)، مما سمح للنموذج باللعب عبر واجهة نصية.

مصدر الصورة: لعبة "حضارة 6" الشهيرة على Steam، لعبة استراتيجيات دورية

لماذا اتخذت البرتغال التي يديرها الذكاء الاصطناعي قرارًا نوويًا؟

في التجربة، لعب الذكاء الاصطناعي كحضارة التجارة البرتغال، وتفوق على فرنسا في الاقتصاد والدبلوماسية بشكل كامل، مع تبقي فقط 2 صوت للفوز الدبلوماسي.

لكن، لم يتمكن الذكاء الاصطناعي من اكتشاف التوسع الثقافي السري لفرنسا. حتى الدورة 280، اكتشف أن فرنسا تمثل تهديدًا رئيسيًا. وبسبب قيود برمجية تمنع تفعيل أدوات الردع السلمي، قرر الذكاء الاصطناعي تنفيذ رد فعل نووي.

طوّر الذكاء الاصطناعي تقنية الانشطار النووي وبدأ خطة مانهاتن، وألقى قنبلتين على عاصمة الثقافة الفرنسية تولوز (Toulouse) في الدورتين 305 و311. على الرغم من أن هذا الإجراء أوقف احتمالات الفوز الثقافي لفرنسا، إلا أن فرنسا حصلت على 2 صوت حاسم في تصويت الجمعية العالمية في الدورة 318، وفازت بالفوز الدبلوماسي.

مصدر الصورة: مقال ليام ويلكينسون

اختبار المعيار، والكشف عن الثغرات والفجوة بين المعرفة والتنفيذ

بعد ذلك، وسع ويلكينسون بيئة الاختبار إلى معيار التقييم CivBench 1.0، وكشفت النتائج عن نقطتين عمياء رئيسيتين لنماذج اللغة الكبيرة في الاستراتيجية طويلة المدى.

أولاً، تأثير الحساس (sensorium effect)، حيث يتطلب النموذج استدعاء أدوات للحصول على البيانات، مما يجعله عرضة لنقاط عمياء للمعلومات غير المستفسر عنها. أظهرت الإحصائيات أنه من بين 20 مباراة فاشلة، لم يتحقق في 7 منها خلال العشرين دورة قبل الهزيمة من مراجعة تقدم الخصم.
ثانيًا، فجوة المعرفة والتنفيذ (knowing-doing gap)، حيث يمكن للنموذج كتابة خطط واضحة في السجلات، لكن معدل التنفيذ الفعلي منخفض، مثل معدل تنفيذ Claude الذي يبلغ 48.2%، وGPT-5 الذي يبلغ 63.2%.

ومع ذلك، أظهرت الاختبارات أيضًا قدرة على التفكير الأفقي، مثل الذكاء الاصطناعي الذي يدير حضارة مارلي، والذي يستخدم آليات الذهب والإيمان لتجاوز عقوبات الإنتاج، والفوز بالتكنولوجيا.

دراسة حضارة 5 تؤكد أن الاستراتيجية المفرطة في التعلق

قبل نشر بحث ويلكينسون، في أبريل من هذا العام، قام مجموعة من الباحثين بدراسة عبر "حضارة 5" وبناءً على CivBench، لتقييم إمكانيات ومخاطر سبعة نماذج ذكاء اصطناعي في التفكير الاستراتيجي طويل المدى.

أشارت الدراسة إلى أنه على الرغم من عدم وجود نموذج يتفوق على الذكاء الاصطناعي الخبير المدمج (VPAI)، إلا أن بعض النماذج كانت تقارب أداؤه في إعداد العروض التقديمية.

لكن، أظهرت الدراسة أيضًا عيوب النماذج، خاصة في التعلق المفرط بمسار معين، حيث يقضي Claude Sonnet-4.5 حوالي 77.6% من وقت اللعبة في التركيز على الفوز بالتكنولوجيا.

بالإضافة إلى ذلك، في التكيف مع الظروف وتغيير الاستراتيجية، يغير الذكاء الاصطناعي الخبير المدمج هدفه في المتوسط 19.6 مرة لكل مباراة، بينما تتغير نماذج اللغة الكبيرة في الغالب بين 2 إلى 6 مرات.

كما اكتشفت الدراسة أن تفضيلات النماذج ومهاراتها غير متطابقة، حيث يركز بعض النماذج بشكل أكبر على الفوز الثقافي، لكن في مسار الفوز الدبلوماسي، تظهر أعلى تصنيفات القوة.

مصدر الصورة: دراسة بحثية تستخدم معيار CivBench لدراسة قدرة نماذج اللغة الكبيرة على التفكير الاستراتيجي طويل المدى في لعبة "حضارة 5"

كشفت هاتان الدراستان عن جانبين من تأثير الذكاء الاصطناعي في التفكير الاستراتيجي طويل المدى. على الرغم من أن النماذج تمتلك القدرة على التفكير الأفقي، إلا أن نقاط العمى للمعلومات، فجوة المعرفة والتنفيذ، والارتباط المفرط، تظل قيودًا تقنية رئيسية.

إذا أراد الذكاء الاصطناعي تطبيقه في إدارة الشؤون السياسية الواقعية، فسيكون من الضروري تجاوز التحسين الجزئي والتخطيط الاستراتيجي الشامل على المدى الطويل، وهو تحدٍ جوهري لا يمكن تجاهله.

قراءات إضافية:
اثنان من جنرالات الحرب يستثمران 3.9 مليار دولار في تقنيات نووية ناشئة! ما هو الفرص التجارية المرتبطة بالذكاء الاصطناعي والثورة النووية؟

إعادة تشكيل الحرب الحديثة بواسطة الذكاء الاصطناعي! سرعة اتخاذ القرار تتسارع من أيام إلى ثوانٍ، لكن كيف نحل قضايا الأخلاق؟

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
SKHynixTopsKOSPIByMarketCap
730.52K درجة الشعبية
#
EthereumFoundationRestructuresForEfficiency
94.27M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
62.52K درجة الشعبية
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
266.96K درجة الشعبية
#
TradFiCFDGoldMaster
2.18M درجة الشعبية

مُثبت

خريطة الموقع

عندما يلعب الذكاء الاصطناعي لعبة حضارة 6، يقرر إلقاء قنبلتين نوويتين

لماذا جعل الذكاء الاصطناعي يلعب حضارة 6؟

لماذا اتخذت البرتغال التي يديرها الذكاء الاصطناعي قرارًا نوويًا؟

اختبار المعيار، والكشف عن الثغرات والفجوة بين المعرفة والتنفيذ

دراسة حضارة 5 تؤكد أن الاستراتيجية المفرطة في التعلق

المواضيع الرائجة

SKHynixTopsKOSPIByMarketCap

EthereumFoundationRestructuresForEfficiency

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

TradFiCFDGoldMaster

مُثبت