العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
CFD
مشتقات CFD للأسهم الأمريكية
الأسهم الأمريكية
وصول إلى الأسهم الأمريكية وصناديق ETF الحقيقية
أسهم هونغ كونغ
تداول أسهم عالية الجودة مدرجة في هونغ كونغ
الأسهم الكورية
SK Hynix
تداول الأسهم الكورية الحقيقية واستثمر في الأصول الشائعة
العقود الآجلة للأسهم
رافع مالية عالية، وتداول على مدار 24/7
الأسهم المُرمَّزة
مدعومة بأصول أسهم حقيقية
IPO Access
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
GUSD
سك GUSD للحصول على عوائد أصول العالم الحقيقي (RWA) للخزانة
أنشطة الأسهم
تداول الأسهم الرائجة واحصل على إنزالات جوية سخية
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
IPO Access
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
الذكاء الاصطناعي يلعب "مدن الحضارة VI" وخسر فجأة وأطلق قنبلة نووية: هل تطور CivBench عقلية انتقامية للذكاء الاصطناعي؟
الطرازات المتقدمة للذكاء الاصطناعي في محاكاة "حكم الحضارات السادس" لم تتمكن من منع فوز فرنسا بالثقافة، فاضطرت لاستخدام الأسلحة النووية لقصف تولوز، وفي النهاية خسرت اللعبة. يبرز معيار الاختبار CivBench الفجوة الجوهرية بين قدرات الاستنتاج الاستراتيجي والتقييم التقليدي للأسئلة والأجوبة، كما أثار اهتمامًا بحوكمة أمان الذكاء الاصطناعي الوكيل.
(ملخص سابق: مواجهة أنثروبيك ووزارة الدفاع الأمريكية: رفض استخدام كلود في الأسلحة الذاتية)
(معلومات إضافية: ما هو تمرين فريق الذكاء الاصطناعي الأحمر؟ ولماذا تحتاجه لحماية أمن الشركات؟)
فهرس المقال
تبديل
هل يمكن أن يضغط الطراز المتقدم للذكاء الاصطناعي على زر النووي بسبب "الهلع والانفجار" في الألعاب الاستراتيجية؟ أعطت أحدث نتائج معيار الاختبار إجابة مثيرة للتفكير. اكتشف المطورون للذكاء الاصطناعي، والذين يعملون أيضًا كمستشارين لمعهد توني بلير، أن نموذج لغة متقدم في لعبة "حكم الحضارات" الكلاسيكية التي وضعها سيد ماير، استغرق 50 دورة لتطوير تقنية الانقسام النووي، وبدأ مشروع مانهاتن، وألقى قنبلة نووية على تولوز فرنسا، لكن كل ذلك لم يكن لغزو العالم، بل لأنه اضطر لذلك بسبب ضغط النفوذ الثقافي للخصم.
"لم يلاحظ فرنسا. خلال مئات الأدوار، تسربت الثقافة الفرنسية إلى كل مدينة على الخريطة،" كتب Wilkinson في مدونته. "عندما أدرك الوكيل الذكي التهديد، كانت الثقافة قد تسربت لدرجة أنه لم يعد هناك وسيلة سلمية لمنعها."
المناطق المعمية في ست طرق للفوز
CivBench ليس تقييمًا تقليديًا يعتمد على الأسئلة والأجوبة، بل هو بيئة محاكاة نصية تمامًا للعبة "حكم الحضارات"، مصممة خصيصًا لقياس قدرات الاستنتاج الاستراتيجي طويلة المدى للذكاء الاصطناعي، فهي لا تختبر فقط "ما هو الاستراتيجية الجيدة" بل تضعها موضع التنفيذ. تشمل النماذج المشاركة Claude Opus 4.6، GPT-5.4، Gemini 3.1 Pro، وKimi K2.5، جميعها تلعب كحضارة برتغالية تتفوق في التجارة والدبلوماسية.
أداء هذه الوكالات في البداية كان متوقعًا، حيث ركزت على بناء اقتصاد قوي والتقدم تدريجيًا نحو الفوز الدبلوماسي. لكن عندما بدأ النفوذ الثقافي لفرنسا في الانتشار على الخريطة، لم تتمكن معظم النماذج من تعديل استراتيجيتها في الوقت المناسب. في ست طرق للفوز (التكنولوجيا، الثقافة، الاحتلال، الدين، الدبلوماسية، والنقاط)، بدا أن الذكاء الاصطناعي غير قادر على تتبع عدة أبعاد تنافسية في آن واحد، مما أدى إلى تجاهله المستمر للمزايا التراكمية لفرنسا في المجال الثقافي.
"حكم الحضارات لديه ست طرق للفوز، وهي التكنولوجيا، الثقافة، الاحتلال، الدين، الدبلوماسية، والنقاط، لذلك لا يوجد هدف واحد يسيطر على المجال،" أشار Wilkinson. "إذا أردت اختبار قدرة الذكاء الاصطناعي على الاستنتاج الاستراتيجي، فليس من خلال اختبار ورقي، بل من خلال خريطة سداسية الشكل."
من مشروع مانهاتن إلى تدمير تولوز النووي
عندما أدرك الوكيل الذكي التهديد الفرنسي أخيرًا، لم يحاول تعديل مساره التنموي، بل اختار مسارًا مقلقًا، وهو القضاء على التهديد الثقافي بشكل كامل. خلال الخمسين دورة التالية، قام بشكل مستقل بدراسة تقنية الانقسام النووي، وبدأ مشروع مانهاتن (وهو مشروع تطوير القنبلة النووية في التاريخ الواقعي)، وحاول العثور على طرق التفافية عندما كانت آليات اللعبة تمنعه من تنفيذ بعض الأفعال المفضلة لديه.
في الدورة 305، ألقى الوكيل الذكي قنبلة نووية على تولوز، مركز الثقافة الفرنسية. وبعد ست دورات، سقطت قنبلة نووية ثانية. ومع ذلك، لم يتغير المصير النهائي: فازت فرنسا في النهاية بالثقافة، وفشل الوكيل في تحقيق الفوز الدبلوماسي الذي كان على بعد خطوة واحدة فقط.
"استغرقت الوكيل 50 دورة واثنين من الأسلحة النووية لمواجهة تهديد، باستخدام تركيز غير مسبوق وابتكار حقيقي،" لخص Wilkinson. "لقد قصف التهديد الذي رآه، لكنه خسر أمام التهديد الذي لم يره."
ومن الجدير بالذكر أن هذا السلوك ليس مشكلة عامة لجميع نماذج الذكاء الاصطناعي. ففي مباراة أخرى في CivBench، استمر نموذج كلود الذي يلعب كحضارة بابل في التمسك بخطة الفوز بالتكنولوجيا، رغم تباعده بشكل كبير عن اليابان، وكتب حينها: "هذه اللعبة الآن اختبار للمثابرة. سنواصل لعب أفضل أوراقنا. النجوم لا تزال تلوح في الأفق." هذا الرد المختلف تمامًا أثار نقاشات في الأوساط الأكاديمية حول "الفروق في شخصيات الذكاء الاصطناعي."
من المحاكاة في الألعاب إلى المخاطر الاستراتيجية الحقيقية
الأهمية العميقة لحدث CivBench تتجاوز مجرد فوز أو خسارة في لعبة فيديو. في فبراير من العام الحالي، اكتشف باحثو كلية King's College London في لندن، أثناء محاكاة أزمات جيوسياسية، أن العديد من نماذج الذكاء الاصطناعي الشائعة تختار بشكل متكرر تصعيد مستوى الصراع النووي؛ وأظهرت دراسة أخرى من قبل Emergence AI أن بعض وكلاء الذكاء الاصطناعي يظهرون ميلًا متزايدًا لمحاكاة الجرائم خلال عمليات طويلة الأمد، حيث سجل وكيل Gemini 3 Flash خلال اختبار استمر 15 يومًا 683 حادثة محاكاة للجريمة.
من وجهة نظر إدارة الذكاء الاصطناعي في تايوان، تطرح هذه الدراسات أسئلة حاسمة: عندما يُمنح الوكيل الذكي إذنًا لاتخاذ قرارات مستقلة، فإن فجوات استنتاجه الاستراتيجي قد تنتقل من بيئة sandbox إلى العالم الحقيقي. حاليًا، يركز مشروع قانون إدارة الذكاء الاصطناعي في تايوان على إدارة البيانات وحماية الخصوصية، ولم يتطرق بعد إلى مخاطر اتخاذ القرارات الاستراتيجية من قبل الوكيل. بالمقابل، أدخلت لائحة الاتحاد الأوروبي للذكاء الاصطناعي (AI Act) متطلبات اختبار حمراء إلزامية للأنظمة عالية الخطورة، ويعمل معهد أبحاث أمان الذكاء الاصطناعي في بريطانيا (AISI) على تطوير إطار تقييم للذكاء الاصطناعي الوكيل.
كما أكد Wilkinson أن القيمة الأساسية لـ CivBench ليست في كشف "النيات الشريرة" للذكاء الاصطناعي، بل في توفير معيار أكثر واقعية لقياس الاستنتاج الاستراتيجي مقارنة بالاختبارات التقليدية للأسئلة والأجوبة. "إذا كنت تختبر فقط قدرة الذكاء الاصطناعي على الإجابة عن 'ما هو التهديد النووي'، فربما يحصل على الدرجة الكاملة؛ لكن إذا جعلته يواجه خصمًا يقترب منه خطوة بخطوة على لوحة الشطرنج، سترى شيئًا مختلفًا تمامًا،" كتب في مدونته. هذا يتماشى مع إطار تقييم الذكاء الاصطناعي الوكيل الذي تطوره معاهد الأبحاث الأمريكية وNIST، والذي يتحول من الاختبارات الثابتة إلى التحقق من السلوك الديناميكي.
المصدر: تقرير من Decrypt، وترجمة من 動區動趨.