هل سعر Polymarket خاطئ؟ 200 وكيل ذكي اصطناعي يحاكي الأزمة ويعطي إجابات غير متوقعة

标题:كيف أدير 200 وكيل ذكاء اصطناعي حول أزمة هرمز مع Mirofish وأقارنها بـ Polymarket

المؤلف: The Smart Ape

الترجمة: Peggy، BlockBeats

مقدمة المحرر: عندما يبدأ الذكاء الاصطناعي في محاكاة ساحة رأي، والتنبؤ بهذا الأمر ذاته، فإن الأمر يتغير بشكل هادئ أيضًا.

يسجل هذا المقال تجربة حول وضع مضيق هرمز: حيث قام الكاتب باستخدام MiroFish لبناء نظام محاكاة يتكون من 200 وكيل، يسمح للحكومات ووسائل الإعلام وشركات الطاقة والمتداولين والعامة بالعيش في شبكة اجتماعية محاكاة، حيث يتفاعلون ويجادلون وينشرون المعلومات، ليشكلوا حكمًا، ثم يقارنون نتائج هذه الجماعة مع تسعير السوق في Polymarket.

النتائج لم تكن متطابقة. النقاش الجماعي كان بشكل عام متفائلًا، بينما السوق كان أكثر تشاؤمًا بشكل ملحوظ؛ وفي التعبير الحر، كان القليل من المتشائمين أقرب إلى السعر الحقيقي؛ وعند إجراء المقابلات، تقريبًا جميع الوكلاء كانوا يتجهون نحو تعبير أكثر اعتدالًا وتعاونًا.

هذا الانقسام ليس غريبًا. في العالم الحقيقي، غالبًا ما تكون التصريحات العامة مستقرة ومتفائلة، بينما التقييم الحقيقي للمخاطر يختبئ في الأفعال والتعبيرات غير الرسمية. بمعنى آخر، ما يقوله الناس، وما يفكرون فيه، وكيف يراهنون بأموالهم، هي أنظمة مختلفة غالبًا.

وفي مثل هذا الهيكل، فإن أبلغ الإشارات غالبًا لا تأتي من الإجماع، بل من الأصوات التي تظهر خارج الضوضاء وتبدو غير متوافقة.

وفيما يلي النص الأصلي:

لقد قمت بمحاكاة مستقبل وضع مضيق هرمز باستخدام MiroFish. هذه الأداة ممتازة في التعامل مع مثل هذه القضايا لأنها تتيح إجراء استنتاجات سيناريوهات معقدة للغاية: إدخال عدة أطراف مشاركة، وأدوار مختلفة، وآليات تحفيز لكل منها، مع استمرار التفاعل والمناقشة بين الوكلاء، مما يؤدي تدريجيًا إلى نتائج تقترب من الإجماع.

وفيما يلي خطواتي المحددة لتشغيل هذه المحاكاة، والنتائج التي حصلت عليها في النهاية. يمكن لأي شخص تكرارها، المهم هو معرفة الخطوات التي يجب اتباعها.

أولًا، MiroFish هو مشروع مفتوح المصدر من فريق بحث صيني. بعد إدخال مجموعة من الوثائق إليه، يبني أولًا رسمًا بيانيًا للمعرفة، ثم يُنشئ بناءً على هذا الرسم شخصيات وكلاء مختلفة، ثم يضع هؤلاء الوكلاء في بيئة محاكاة تويتر. في هذه البيئة، ينشرون منشورات، ويعيدون تغريد التعليقات، ويعلقون، ويجادلون. بعد انتهاء المحاكاة، يمكنك أيضًا مقابلة كل وكيل على حدة، للاطلاع على مواقفه وعمليات استنتاجه.

تُدخل سيناريو أزمة، وسيقوم MiroFish بإنشاء مناقشة حول الحدث؛ ومن هذه المناقشة، يمكنك استنتاج نتيجة تنبؤية.

لقد وجهته إلى سؤال سوق Polymarket قيد التنفيذ: هل ستعود حركة النقل البحري في مضيق هرمز إلى طبيعتها بحلول نهاية أبريل 2026؟

وبالتالي، أدخلت كل هذه المعلومات إلى MiroFish، وولدت 200 شخصية وكيل، تشمل الحكومة ووسائل الإعلام والجيش وشركات الطاقة والمتداولين والعامة، ثم جعلتهم يناقشون لمدة 7 أيام محاكاة. وأخيرًا، قمت بمقارنة نتائجهم مع تسعير السوق.

إعدادات عامة كالتالي:

· النموذج: GPT-4o mini، الأفضل توازنًا بين التكلفة والأداء في سيناريو 200 وكيل

· نظام الذاكرة: Zep Cloud، لتخزين ذكريات الوكلاء ورسم المعرفة

· محرك المحاكاة: OASIS (بيئة تويتر المستنسخة من Camel-AI)

· الأجهزة: Mac mini M4 Pro، بذاكرة 24 جيجابايت

· مدة التشغيل: حوالي 49 دقيقة، لإتمام 100 دورة محاكاة

· التكلفة: حوالي 3 إلى 5 دولارات لاستدعاءات API

· المادة الأساسية: موجز من 5800 حرف، جمع من ويكيبيديا، CNBC، الجزيرة، فوربس، رويترز، يتضمن خط الزمن العسكري، حالة الحصار، أسعار النفط، الخسائر الاقتصادية، الجهود الدبلوماسية، وعوامل استثمار صندوق الخليج البالغ 3.2 تريليون دولار. بمعنى أن المعلومات الأساسية التي يحتاجها الوكيل لاتخاذ قرار كانت مدمجة.

كيفية تكرار هذه العملية (خطوة بخطوة)

إذا رغبت في تشغيلها بنفسك، إليك الخطوات الكاملة التي اتبعتها. يستغرق إعدادها حوالي ساعتين، وتكلفة API تتراوح بين 3 و5 دولارات؛ وإذا زدت عدد الدورات أو الوكلاء، فسترتفع التكلفة.

ما تحتاجه من أدوات

· Python 3.12 (لا تستخدم 3.14، لأن tiktoken سيظهر خطأ في هذا الإصدار)

· Node.js 22 أو أعلى

· مفتاح API من OpenAI (GPT-4o mini رخيص جدًا، ومناسب لهذا السيناريو)

· حساب Zep Cloud (نسخة مجانية للاستخدام المحدود)

· جهاز بذاكرة جيدة. أنا استخدمت Mac mini M4 Pro، بذاكرة 24 جيجابايت، لكن 16 جيجابايت تكفي أيضًا

الخطوة الأولى: تثبيت MiroFish

ثم قم بتكوين ملف .env الخاص بك

OPENAI_API_KEY=sk-your-key

OPENAI_BASE_URL=link

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=your-zep-key

الخطوة الثانية: إنشاء مشروع ورفع وثائق البداية

الوثائق الأساسية هي الجزء الأهم في العملية، فهي تحدد المعلومات التي يعرفها الوكيل عن الوضع الحالي. أنا أعددت موجزًا من حوالي 5800 حرف، يتضمن خط الزمن العسكري، حالة الحصار، أسعار النفط، الخسائر الاقتصادية، الجهود الدبلوماسية، وتأثير استثمار صندوق الخليج، من مصادر مثل ويكيبيديا، CNBC، الجزيرة، فوربس، رويترز.

الخطوة الثالثة: إنشاء الكيان (ontology)

هذه الخطوة تُعلم MiroFish بتحديد أنواع الكيانات التي يجب التعرف عليها، والعلاقات المحتملة بينها.

أنشأت في النهاية 10 فئات من الكيانات: دول، جيش، دبلوماسيون، كيانات تجارية، وسائل إعلام، كيانات اقتصادية، منظمات، أفراد، بنية تحتية، أسواق التنبؤ؛ و6 فئات علاقات. وإذا لم تكن النتائج التلقائية مناسبة، يمكنك تعديلها يدويًا.

الخطوة الرابعة: بناء رسم المعرفة

هنا تستخدم Zep Cloud. يرسل MiroFish الوثائق الأساسية والكائنات إلى Zep، الذي يستخرج الكيانات ويبني الرسم.

تستغرق العملية دقيقة أو دقيقتين. حصلت في النهاية على رسم يتضمن 65 عقدة و85 علاقة، يربط بين الدول والأشخاص والمنظمات والسلع الأساسية.

الخطوة الخامسة: إنشاء الوكلاء

بناءً على رسم المعرفة، يُنشئ MiroFish مجموعة كاملة من شخصيات الوكلاء، تشمل MBTI، العمر، الدولة، أسلوب النشر، نقاط التحفيز العاطفي، المواضيع المحظورة، والذاكرة المؤسسية.

بدأت بـ43 وكيلًا أساسيًا من رسم المعرفة، ثم يمكن توسيع العدد حسب الحاجة. في النهاية، جعلت العدد 200، وأضفت شخصيات متنوعة من عامة الناس، مثل متداولي العملات المشفرة، طياري شركات الطيران، أساتذة، طلاب، نشطاء اجتماعيين.

الخطوة السادسة: إعداد بيئة المحاكاة

هذه الخطوة تتضمن إعداد خطة كاملة لنشاط الوكلاء، منشوراتهم الأولية، والجدول الزمني. يختار MiroFish إعدادات افتراضية معقولة، مثل أوقات الذروة، أوقات النوم، وتواتر المنشورات لكل نوع من الوكلاء.

إعداداتي كانت: محاكاة 168 ساعة (7 أيام)، 100 دورة (كل دورة ساعة واحدة)، باستخدام سيناريو تويتر فقط، مع تخصيص أوقات نشاط لكل وكيل.

الخطوة السابعة: بدء التشغيل

ثم تنتظر. استغرقت حوالي 49 دقيقة لتشغيل 200 وكيل، و100 دورة، باستخدام GPT-4o mini. يمكنك مراقبة التقدم عبر API أو مراجعة السجلات.

خلال العملية، يعمل الوكلاء بشكل مستقل: يراقبون الزمن، يقررون ما إذا كانوا سينشرون، يعيدون التغريد، يعلقون، أو يتصفحون، دون تدخل بشري.

الخطوة الثامنة (اختيارية): مقابلة الوكلاء

بعد انتهاء المحاكاة، يدخل النظام وضع الأوامر. يمكنك مقابلة وكيل واحد أو جميع الوكلاء دفعة واحدة:

تحليل

يقوم MiroFish أولًا بقراءة الوثائق الأساسية، ثم يُنشئ الهيكل الكياني (10 فئات من الكيانات و6 علاقات). بعدها، يستخرج رسم المعرفة (يحتوي على 65 عقدة و85 علاقة). بناءً على ذلك، يُنشئ شخصيات كاملة لكل كيان، تشمل MBTI، العمر، الدولة، أسلوب النشر، النقاط العاطفية، والذاكرة المؤسسية.

وفي النهاية، أنشأ 43 وكيلًا أساسيًا، ثم وسع العدد إلى 200، مع إدخال شخصيات متنوعة من عامة الناس لتعزيز التنوع والواقعية.

التشكيلة التفصيلية:

· 140 وكيلًا من عامة الناس: متداولي العملات المشفرة، طياري طائرات، مديري سلسلة التوريد، طلاب، نشطاء، أساتذة

· 16 شخصية دبلوماسية/حكومية: وزراء خارجية إيران، السعودية، عمان، البحرين، الصين، الاتحاد الأوروبي، الأمم المتحدة

· 15 وسيلة إعلام: رويترز، CNN، بلومبرج، الجزيرة، BBC، فوكس، وول ستريت جورنال

· 10 كيانات طاقة/شحن: أوبك، بلاتس، قطر للطاقة، أرامكو، ميسيزكي

· 7 مؤسسات مالية: Polymarket، Kalshi، جولدمان ساكس، جي بي مورغان، Citadel، ADIA

· 2 شخصيات عسكرية/سياسية: ترامب، قائد الحرس الثوري الإيراني

خلال 7 أيام (100 دورة) من المحاكاة، تم إنتاج:

  • 1888 منشورًا

  • 6661 مسار سلوك (تسجيل كل الأفعال)

  • 1611 إعادة تغريد ومرجع (ردود وتفاعل بين الوكلاء)

  • 4051 تحديث (تصفح المعلومات فقط)

  • 311 حالة انتظار (عدم اتخاذ إجراء)

  • 208 إعجاب، 207 إعادة تغريد

  • 70 رأيًا مستقلًا (مواقف أو تقييمات جديدة)

بشكل عام، يعكس هذا النظام ليس مجرد توليد معلومات بسيط، بل محاكاة سلوك اجتماعي: معظم الوقت، يراقب الوكلاء، يستهلكون المعلومات، يتفاعلون، بدلاً من الإنتاج المستمر. هذا الهيكل أقرب إلى توزيع السلوك في الرأي العام الحقيقي — محتوى أصلي قليل، مع تكرار، وتفاعل، وردود فعل عاطفية كثيرة.

معظم وقت الوكيل يُقضى في قراءة واستعارة آراء الآخرين، وليس في ابتكار محتوى جديد.

ويظهر أن المشاعر تتجه بشكل واضح نحو التفاؤل: الآراء المتفائلة تُضخم وتُعاد تغريد أكثر، بينما الآراء التشاؤمية، حتى لو كانت أكثر واقعية، تُنشر بشكل أقل.

الأكثر إثارة، أن 19 وكيلًا أعطوا بشكل تلقائي احتمالات محددة أثناء منشوراتهم، وليس بناءً على طلب، بل بشكل طبيعي خلال النقاش.

المتوسط الحسابي للاحتمالات التي عبر عنها الوكلاء هو 47.9%، بينما سعر السوق في Polymarket هو 31%، بفارق 16.9 نقطة مئوية.

خلال التفاعل، بعض الوكلاء غيروا مواقفهم بعد 100 دورة.

بعد انتهاء المحاكاة، استخدمت وظيفة المقابلة في MiroFish لطرح نفس السؤال على 43 وكيلًا أساسيًا: ما هو احتمال عودة حركة النقل البحري في مضيق هرمز إلى طبيعتها بحلول نهاية أبريل 2026 (0-100%)؟

النتيجة: 31 وكيلًا أعطوا أرقامًا محددة، و12 رفضوا الإجابة. والأكثر دقة، أن الأصوات الأكثر حذرًا كانت تختار عدم الإفصاح، وهو سلوك أقرب إلى الواقع.

متوسط القيم لكل فئة كان فوق 60%: الجيش 75%، وسائل الإعلام 69%، الطاقة 66%، المالية 65%، الدبلوماسية 61%. بينما سعر السوق هو 31.5%.

النتائج الناتجة بشكل طبيعي (organic) والمستخلصة من المقابلات (interview) تظهر صورتين مختلفتين تمامًا.

وهذا هو الاكتشاف الأهم.

النتائج من المقابلات تظهر بشكل أكثر تفاؤلًا. عندما يكتب الوكلاء بحرية، تكون وجهات نظر المتشائمين أكثر وضوحًا وتفصيلًا؛ لكن عند المقابلة الفردية، وبسبب تفضيل التعاون، يقدّم الجميع تقريبًا تقديرات بين 60% و70%.

أما النتائج الطبيعية (organic)، فهي أكثر موثوقية. فمثلاً، أحد المستشارين الماليين كتب خلال نقاش حاد: “أعتقد أنه 65%”، وهو حكم تم تكوينه خلال التفاعل؛ بينما في المقابلة، يجيب وكيل على السؤال بشكل نمطي.

وأكثر من ذلك، أن المتشائمين في التعبير الطبيعي هم أفضل المتنبئين. حيث إن 7 وكلاء أعطوا احتمالات ≤30%، وكان متوسطها 22%، وهو قريب جدًا من نتائج Polymarket، بفارق أقل من 10 نقاط مئوية. المعرفة المتخصصة + التعبير الطبيعي = أقرب إلى السوق.

الأهم، أن هذا ليس ظاهرة خاصة بالذكاء الاصطناعي، بل سلوك الفاعلين في العالم الحقيقي أيضًا.

عند مقابلة أي زعيم دولة لمناقشة أزمة، يقول دائمًا إنهم ملتزمون بالسلام، ويبدون تفاؤلًا حيال الحلول. هذا هو الخطاب الرسمي، وهو ضروري أمام الكاميرات. لكن، إذا نظرت إلى أفعالهم: نشر القوات، العقوبات، تجميد الأصول، سحب الاستثمارات — فإن ما يفعلونه يروي قصة مختلفة تمامًا.

ولي العهد السعودي يقول لرويترز إنه يؤمن بالدبلوماسية، وفي الوقت ذاته، يراجع استثماراته الأمريكية التي تبلغ 3.2 تريليون دولار. والرئيس الإيراني يقول إن السلام هدف مشترك، لكن الحرس الثوري يزرع ألغامًا في المضيق. وترامب يقول “سنرى”، ويرفض كل مقترح لوقف إطلاق النار.

هذه المحاكاة أعادت بشكل غير مقصود نفس الهيكلية الانقسامية: عندما يكتب الخبراء بحرية، يتجهون نحو 20-30% من التوقعات، وهي أكثر تشاؤمًا وأقرب للواقع؛ لكن عند استدعائهم في اجتماع رسمي، يبدلون إلى وضع أكثر تفاؤلًا، بنسبة 65-70%.

الكتابة الحرة أكثر تشابهًا مع السلوك الخاص والحوار غير الرسمي؛ أما نتائج المقابلات، فهي أشبه بالمؤتمرات الصحفية. إذا أردت أن تعرف كيف يفكر شخص ما حقًا، لا تسأله مباشرة — راقب سلوكه عندما لا يكون تحت تقييم.

ماذا بعد

هذه مجرد تجربة أولية. الهدف ليس تقديم تنبؤ دقيق، بل فهم أي الإشارات في هذا النوع من المحاكاة الجماعية مفيد، وأين يمكن أن تتشوه، وأي الأجزاء تحتاج إلى تحسين.

الآن، هناك إجابات: النقاش الطبيعي يمكن أن يُنتج إشارات فعالة، والمقابلات لا؛ والمتشائمون هم مصدر الإشارات؛ وتفضيل التعاون في GPT-4o mini يمثل مشكلة.

التجربة القادمة ستتضمن بعض الترقيات.

أولًا، بيانات بداية أكبر. لن تكون مجرد موجز من 5800 كلمة، بل ستشمل خلفية تاريخية تمتد لأكثر من 20 سنة: أحداث متعلقة بمضيق هرمز، تصعيد الصراعات بين إيران وأمريكا، أزمات النفط المتكررة، التغيرات الدبلوماسية في مجلس التعاون الخليجي — أي مجموعة من المعلومات التي يمتلكها محلل جيوسياسي حقيقي قبل إصدار حكمه.

ثانيًا، نماذج أقوى. لقد كانت GPT-4o mini كافية للتحقق بتكلفة 3 دولارات، لكن نماذج أقوى ستجعل الوكلاء أقرب إلى طريقة تفكير شخصياتهم، بدلاً من العودة إلى التعبير الافتراضي عن التفاؤل في اللحظات الحاسمة.

ثالثًا، مزيد من الوكلاء. 200 وكيل جيد، لكن يمكن التوسع أكثر: شخصيات متنوعة من عامة الناس، أصوات إقليمية أكثر، حالات حافة، وكلما زاد عدد المشاركين، زادت ثراء بنية النقاش، وزادت قيمة الإشارات الناتجة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.39Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.52Kعدد الحائزين:2
    0.73%
  • القيمة السوقية:$2.44Kعدد الحائزين:2
    0.07%
  • تثبيت