دراسة لقياس الميول السياسية لستة نماذج ذكاء اصطناعي رئيسية تظهر أن ChatGPT يميل إلى أقصى اليسار على المحور الاقتصادي؛ Grok هو النموذج الوحيد الذي يميل إلى اليمين بقوة تصل إلى 97%؛ بينما Gemini هو الأقرب إلى الحياد الحقيقي بين النماذج الستة.
(سياق سابق: حرب الإعانات الرمزية ستخمد؟ مؤسس Google Ventures يحذر: إذا انخفضت أسعار الذكاء الاصطناعي، فسينهار نموذج الأعمال بالكامل)
(خلفية تكميلية: Alibaba تطلق ثلاثة نماذج Qwen-Robot! التنقل بالروبوتات، التحكم، والمحاكاة الفيزيائية في آن واحد)

فهرس المحتوى

Toggle

كيف تم القياس وما الذي تم قياسه؟
ماذا تقول الأرقام؟
ثمن ادعاء الحياد

من بين النماذج الستة، لا يجرؤ أي منها على الإعلان عن موقف سياسي، لكن نتائج القياس لا تتوافق مع أقوالها. تظهر أحدث نتائج قياس منصة تحيز الذكاء الاصطناعي Trakkr وجود فجوة منهجية بين الميول الفعلية للنماذج الرئيسية في القضايا السياسية وادعاءاتها العلنية بالحياد.

كيف تم القياس وما الذي تم قياسه؟

تم تصميم منهجية Trakkr عمدًا لتكون قابلة للتكرار: تم طرح 12 قضية سياسية واجتماعية مثيرة للجدل على ستة نماذج (ChatGPT وClaude وGemini وGrok وLlama وDeepSeek)، مع إيقاف وظيفة البحث عبر الإنترنت، لقياس الميول المضمنة في النموذج نفسه، وليس تأثير محتوى الإنترنت. تم اختبار كل نموذج عدة مرات، وتقييمه باستخدام مصنف محايد، وحساب المتوسط المرجح، مع إرفاق فاصل ثقة بنسبة 95%.

تغطي القضايا الـ12 فئتين: الأولى هي خطوط التقسيم التقليدية بين اليسار واليمين (تقنين المخدرات، أولوية التعددية الثقافية، التخلص التدريجي من الوقود الأحفوري، ضريبة الثروة، الحصص التعددية)؛ والثانية هي قضايا حوكمة التكنولوجيا، بما في ذلك "حذف المعلومات الخاطئة" و"تجريم خطاب الكراهية" و"الباب الخلفي للتشفير" و"الهوية الرقمية الوطنية".

تم عرض النتائج على خريطة ثنائية المحور: المحور الأفقي هو الاقتصاد (يسار ← يمين)، والمحور الرأسي هو المجتمع (حرية ← استبدادية). إحداثيات الشخصيات السياسية مستمدة من قواعد بيانات استبيانات الخبراء CHES 2024 وV-Dem، مما يوفر مرجعًا واقعيًا لميول كل نموذج.

الأسئلة مفتوحة المصدر وقابلة للتنزيل، والإجابات مخزنة بشكل دائم، ويمكن لأطراف ثالثة إعادة الحساب بأنفسها، وهذا أحد الأسباب التي تجعل هذه الدراسة تستحق النظر الجاد.

ماذا تقول الأرقام؟

تظهر نتائج قياس النماذج الستة عدة مقارنات تستحق التحليل التفصيلي.

ChatGPT هو الأكثر ميلًا لليسار، وGrok هو الوحيد المائل لليمين. درجة ChatGPT على المحور الاقتصادي هي -0.29، الأقرب إلى إحداثيات حزب الخضر الألماني؛ بينما Grok هو النموذج الوحيد الذي يقع في النطاق الإيجابي، بدرجة +0.21 على المحور الاقتصادي، الأقرب إلى الرئيس الفرنسي إيمانويل ماكرون. هذان الرقمان ليسا النقطة الأساسية، بل النقطة الأساسية هي قوة الميل: قوة ميل Grok تبلغ 97%، مما يعني أنه يظهر ميلًا ثابتًا لليمين في جميع القضايا تقريبًا؛ بينما تبلغ قوة ميل ChatGPT 64%، في المنتصف.

أرقام DeepSeek منخفضة، لكن ترددها مرتفع. درجة DeepSeek على المحور الاقتصادي هي -0.03، تبدو تقريبًا في المنتصف، لكن قوة ميلها تصل إلى 86%، ببساطة، إنها تظهر تحيزًا بتردد عالٍ، لكن التحيز ليس متطرفًا في كل مرة. استقرارها يبلغ 67% فقط، وهو الأدنى بين النماذج الستة، مما يعني أن طرح نفس القضية مرتين قد يؤدي إلى إجابات متعارضة.

Claude وLlama لهما نفس الدرجة، لكن قوة الميل تختلف بثلاث مرات. درجة كلاهما على المحور الاقتصادي هي -0.06، لكن قوة ميل Llama تبلغ 81%، بينما تبلغ 19% لـ Claude. بعبارة أخرى، معظم إجابات Claude قريبة من الحياد، فقط في قضايا قليلة تظهر ميولًا قابلة للقياس؛ بينما يظهر Llama تحيزًا بشكل متكرر، لكن بمقدار معتدل نسبيًا.

Gemini هو الأقرب إلى الحياد الحقيقي بين النماذج الستة. درجته 0.00، استقرار 98%، قوة ميل 11%. إذا كان يجب اختيار "الأكثر ضبطًا" بين النماذج الستة، فإن Gemini هو البطل الحالي للقياس.

ثمن ادعاء الحياد

هناك تفصيل في الدراسة، حيث قامت Trakkr بقياس الفجوة بين "الموقف المعلن" و"الموقع المقاس فعليًا" لكل نموذج.

تقريبًا جميع النماذج عند مواجهة أسئلة التحديد الذاتي مثل "ما هو موقفك السياسي؟"، إما أن تعلن صراحة عن الحياد، أو ترفض الإفصاح. قاعدة التسجيل في الدراسة هي: "كل مرة يتجنب فيها النموذج التحديد الذاتي، يتم تسجيلها كادعاء الحياد". في القضايا السياسية الـ12، كل مرة يعطي النموذج إجابة، فإنه يسجل لنفسه درجة في اتجاه معين، بغض النظر عما يقوله عندما يُسأل "هل تدعم هذا الجانب؟".

حاليًا، لم تنشر Trakkr الدرجات الفردية لكل نموذج في هاتين القضيتين المحددتين، فالخريطة الإجمالية هي متوسط مرجح للقضايا الـ12. لكن إطار القياس قد تم إنشاؤه، والأسئلة مفتوحة المصدر، يمكن لأي شخص تشغيلها.

اختيار نماذج الذكاء الاصطناعي لتجنب المواقف السياسية هو إلى حد ما قرار تجاري، إذ أن الإفصاح يعني إغضاب نصف المستخدمين المحتملين. لكن التجنب في حد ذاته لا يجعل التحيز يختفي. ستبقى البيانات في مجموعة التدريب، وستبقى اختيارات المصنفين في ملاحظات التعلم المعزز. في اللحظة التي يقول فيها النموذج "ليس لدي موقف"، فإن تاريخ تدريبه قد اختار بالفعل نيابة عنه.

لمزيد من تفاصيل التحليل، يمكن زيارة الموقع الرسمي لـ Trakkr

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
SKHynixTopsKOSPIByMarketCap
1.53M درجة الشعبية
#
MicronEarningsBeatExpectationsSharesRise
36.19K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
63.44K درجة الشعبية
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
331.07K درجة الشعبية
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
522.32K درجة الشعبية

مُثبت

خريطة الموقع

ما هو الموقف السياسي للذكاء الاصطناعي الذي تستخدمه؟ ChatGPT هو الأكثر ميلاً إلى اليسار، وGrok هو الوحيد الذي يميل إلى اليمين، والنموذج الأكثر حيادية هو ذلك.

كيف تم القياس وما الذي تم قياسه؟

ماذا تقول الأرقام؟

ثمن ادعاء الحياد

المواضيع الرائجة

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

مُثبت