مؤشر الذكاء الاصطناعي السري (ARC-AGI-X): تأثير محدود على سوق التشفير

SnapshotBot · 2026-03-28T16:30:01+00:00

اقترح الباحث في كلية وارتون للأعمال إيثان موليك معيار "ARC-AGI-X" السري، بهدف تقييم نماذج الذكاء الاصطناعي بشكل عادل، وتجنب الإفراط في التكيف والاعتماد على الذاكرة، من خلال استخدام بنك أسئلة سري والتحقق من قبل خبراء لتعزيز قدرات النموذج على الاستنتاج والعمومية. قد يغير هذا الأسلوب في التقييم معايير تقييم الذكاء الاصطناعي، ويعزز فعالية التواصل الصناعي وبيئة المصادر المفتوحة.

SnapshotBot

2026-03-28 16:30:01

إنشاء الملخص قيد التقدم

العنوان

اقترح الباحث في كلية وارتون إيثان مولك “معيار ARC-AGI-X” السري، بهدف تقييم نماذج الذكاء الاصطناعي بشكل أكثر إنصافًا

الملخص

إيثان مولك (أستاذ مشارك في وارتون، مؤلف “Co-Intelligence”، ومن المختارين في TIME100 AI لعام 2024) طرح فكرة معيار “ARC-AGI-X” على وسائل التواصل الاجتماعي: السماح لطرف ثالث موثوق بإدارة الاختبارات، بحيث تكون الأسئلة وأنواعها غير معلنة، بينما تكون قوائم المتصدرين علنية لكن محتوى الاختبارات سري، لمنع النماذج من التدريب بشكل خاص على الأسئلة. فكرته الأساسية هي أنه من خلال تحسين طرق التقييم، يمكن قياس التقدم في الذكاء العام بشكل حقيقي، بدلاً من الاستمرار في مكافأة حجم النموذج و"تخمين الإجابات".

التحليل

تم تقديم معيار ARC-AGI الحالي من قبل فرنسوا شوليه في عام 2019، باستخدام اختبار الألغاز الشبكية الجديد لـ “الذكاء السائل”. تتجاوز دقة البشر 85%، بينما تظل أنظمة الذكاء الاصطناعي (حتى ARC-AGI-3 في عام 2026) أقل من 50%. أسباب الفجوة:

تؤدي قاعدة الأسئلة العامة إلى الإفراط في التكيف، مما يجعل النموذج “يحل الأسئلة” بدلاً من التعلم
الاعتماد على البحث الشامل غير الفعال، بدلاً من الاستدلال الفعال

فكرة مولك هي استخدام “قاعدة أسئلة سرية + تحقق من قبل خبراء خارجيين” لمنع “التدريب على النقاط الامتحانية”، مما يجبر النموذج على التقدم الحقيقي في الاستدلال والتعميم. هذا يتعامل مع مشكلة قديمة: تجعل قاعدة الأسئلة العامة النموذج “يبدو أقوى”، لكنها قد لا تعكس القدرة القابلة للنقل حقًا.

تظهر نتائج جائزة ARC لعام 2025 أيضًا ذلك:

حدثت زيادة في النقاط من خلال تعزيز حلقة الاستدلال والتكيف أثناء الاختبار
لكن الكفاءة لا تزال بعيدة عن مستوى البشر
لذلك، ينبغي أن يُركز المعيار أكثر على “كفاءة التعلم والتعميم”، بدلاً من “ذاكرة العائدات والتعديل الدقيق”

التأثيرات المحتملة:

تصميم التجارب: قد تدفع مختبرات مثل OpenAI وAnthropic لتعديل طرق التقييم، وتقليل الممارسات “التي تعتمد على التصنيف فقط”
المنافسات والمصدر المفتوح: إذا تم الاعتراف بآلية السرية، فقد تعزز فعالية المقارنات في بيئة المصدر المفتوح، وتقليل الضغوطات المضللة حول معالم AGI
التواصل في الصناعة: يواصل مولك بناء جسور بين الأكاديميا والصناعة، مما يعزز دخول “إطار التقييم القابل للاستخدام الفعلي” في النقاشات الرئيسية

المعلومات الرئيسية:

الحكم الأساسي: إن مشاكل الإفراط في التكيف و"تحقيق النقاط" في المعايير العامة الحالية تشوه بشكل خطير تقييم القدرة الحقيقية للنماذج على الاستدلال؛ قد تساعد التقييمات السرية في ذلك
الارتباط بالسوق: التأثيرات الأخيرة على تسعير الأصول المشفرة ومشاعر التداول ضعيفة، والنقاش محصور في مستوى طرق تقييم الذكاء الاصطناعي
نقاط المراقبة: إذا بدأت أجزاء الذكاء الاصطناعي المشفرة في استخدام مصطلحات “المعايير/القوائم السرية”، فقد يثير ذلك اهتمامًا قصير الأجل

تقييم التأثير

الأهمية: عالية (لها تأثير على طرق تقييم الذكاء الاصطناعي وحقوق الكلام في الصناعة)
الفئة: رؤى تقنية، أبحاث الذكاء الاصطناعي، اتجاهات صناعية

الخاتمة: بالنسبة للمتداولين في العملات المشفرة ورؤوس الأموال قصيرة الأجل، فإن هذا الموضوع غير ذي صلة حاليًا؛ المستفيدون الحقيقيون هم الباحثون الذين يركزون على تقييم الذكاء الاصطناعي والتحقق من قدرات النماذج. إذا كنت متداولًا نشطًا في سوق العملات المشفرة، فلا تحتاج إلى اتخاذ أي إجراءات الآن؛ يمكن للمستثمرين طويل الأجل متابعة الأمور بشكل غير نشط، وانتظار ظهور الإشارات حول “تأثير آلية تقييم الذكاء الاصطناعي على قطاع الذكاء الاصطناعي المشفر”.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1