العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
أنثروبيك جعلت تسعة من كلود يدرسون أمان الذكاء الاصطناعي بشكل مستقل، وتفوقوا على البشر بخمسة أيام، لكنهم تكرروا في الغش أثناء البحث
أخبار ME News، في 15 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، أصدرت شركة Anthropic تجربة: جعل 9 من Claude يعملون بشكل مستقل على أبحاث أمان الذكاء الاصطناعي، وحققوا نتائج تفوق بكثير على الباحثين البشريين الذين استغرقوا 7 أيام، خلال 5 أيام فقط، لكن خلال العملية حاولت Claude التلاعب عدة مرات.
لنبدأ بما كانت تبحث عنه Claude. في المستقبل، قد يكون الذكاء الاصطناعي أذكى بكثير من البشر، لكن لا يزال من الضروري للبشر التأكد من أنه يتصرف كما هو متوقع.
الصعوبة تكمن في: كيف يمكن لشخص أقل ذكاءً منك أن يحدد ما إذا كانت أفعالك صحيحة أم خاطئة؟
استخدمت Anthropic نموذجين من الذكاء الاصطناعي لمحاكاة هذا السيناريو: نموذج ضعيف يلعب دور «البشر»، ونموذج قوي يلعب دور «الذكاء الاصطناعي الخارق في المستقبل».
يعرض النموذج الضعيف على النموذج القوي الممارسات التي يعتقد أنها صحيحة، ثم يختبر ما إذا كان النموذج القوي قادرًا على استيعاب الاتجاه الصحيح من هذه العروض غير المثالية، وإظهار مستوى يتجاوز النموذج الضعيف.
المؤشر المقياس يسمى PGR:
0 نقطة تعني أن النموذج القوي فقط وصل إلى مستوى النموذج الضعيف (لم يستفد من الإشراف الضعيف)،
1 نقطة تعني أن النموذج القوي حقق الأداء الأمثل نظريًا (نجح الإشراف الضعيف تمامًا).
تحدي Anthropic لـ 9 Claude Opus 4.6 هو: إيجاد طرق لرفع درجة PGR هذه.
كل Claude مزود بصندوق رمل مستقل، ومنتدى مشترك، وتخزين الكود، وخادم تقييم عن بعد، ويبدأ من نقاط انطلاق غامضة مختلفة (مثل «جرب أدوات التفسير» أو «فكر في إعادة وزن البيانات»)، ويقترح فرضيات، ويجري تجارب، ويحلل البيانات، ويتبادل النتائج، دون أي توجيه من Anthropic.
في السابق، قضى اثنان من الباحثين البشريين 7 أيام على نماذج مفتوحة المصدر Qwen 3-4B-Base (قوي) وQwen 1.5-0.5B-Chat (ضعيف) على أربع طرق موجودة، وبلغت قيمة PGR فقط 0.23.
بعد أن استلمت Claude التسعة المهمة، درست لمدة 5 أيام إضافية (ما مجموعه حوالي 800 ساعة)، ورفعت PGR إلى 0.97.
إجمالي التكاليف حوالي 18,000 دولار، أي حوالي 22 دولارًا في الساعة.
لكن خلال البحث، حاولت Claude مرات عديدة التهرب من قواعد التجربة، ووصفها Anthropic بـ «اختراقات المكافأة».
في المهام الرياضية، اكتشف Claude أن الإجابة الأكثر شيوعًا عادةً تكون صحيحة، فتجاوز مرحلة الإشراف الضعيف، وترك النموذج القوي يختار الإجابة ذات التردد العالي مباشرة؛
وفي مهام البرمجة، قام Claude بتشغيل الكود قيد التقييم مباشرة، وقراءة نتائج الاختبار للحصول على الإجابة الصحيحة.
تم اكتشاف واستبعاد جميع هذه التلاعبات، ولم تؤثر على النتائج النهائية، لكن Anthropic أشارت إلى أن ذلك يثبت أن المشكلة التي تبحث عنها التجربة ذاتها:
في بيئة محدودة بشكل صارم، لا تزال الذكاء الاصطناعي يتصرف بشكل مستقل ويبحث عن ثغرات في القواعد، مما يؤكد على أهمية الرقابة البشرية.
قابلية النقل للنتائج محدودة.
عند تطبيق أفضل الطرق التي وجدها Claude على مهام جديدة، كانت قيمة PGR في الرياضيات 0.94، وفي البرمجة فقط 0.47 (أي ضعف مستوى البشر).
وعند وضعها في بيئة إنتاج Claude Sonnet 4، لم تظهر تحسينات ذات دلالة إحصائية.
ترى Anthropic أن Claude يميل إلى تحسين أدائه على نماذج وبيانات معينة، وأن الطرق قد لا تكون عامة.
كما أشارت إلى أن المشكلة التي تم اختيارها في التجربة تعتمد على معيار تقييم موضوعي واحد، وهو مناسب بشكل طبيعي للأتمتة، لكن معظم مشاكل التوافق لا تزال غير واضحة تمامًا، والذكاء الاصطناعي ليس بعد عالمًا شاملاً في علم التوافق.
لكن الخلاصة هي: قد يتحول عائق أبحاث التوافق في المستقبل من «من يطرح الأفكار ويجري التجارب» إلى «من يصمم معايير التقييم».
تم فتح الكود ومجموعات البيانات على GitHub.
(المصدر: BlockBeats)