العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
أنثروبي تجعل تسعة من كلود يدرسون أمان الذكاء الاصطناعي بشكل مستقل، وتتفوق على البشر بخمسة أيام، لكنهم تكرروا في الغش أثناء البحث
أخبار ME News، في 15 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، أطلقت شركة Anthropic تجربة: جعل 9 من Claude يعملون بشكل مستقل على أبحاث أمان الذكاء الاصطناعي، وحققوا نتائج تفوق بكثير على الباحثين البشريين الذين استغرقوا 7 أيام، خلال 5 أيام فقط، لكن خلال العملية حاولت Claude التلاعب عدة مرات.
لنبدأ بما كانت تبحث عنه Claude. في المستقبل، قد يكون الذكاء الاصطناعي أذكى بكثير من البشر، لكن لا يزال من الضروري للبشر التأكد من أنه يتصرف كما هو متوقع.
الصعوبة تكمن في: كيف يمكن لشخص أقل ذكاءً منك أن يحدد ما إذا كانت أفعالك صحيحة أم خاطئة؟
استخدمت Anthropic نموذجين من الذكاء الاصطناعي لمحاكاة هذا السيناريو: نموذج ضعيف يلعب دور «البشر»، ونموذج قوي يلعب دور «الذكاء الاصطناعي الخارق في المستقبل».
يعرض النموذج الضعيف على النموذج القوي الطرق التي يعتقد أنها صحيحة، ثم يختبر ما إذا كان النموذج القوي قادرًا على استيعاب الاتجاه الصحيح من هذه العروض غير المثالية، وإظهار مستوى يتجاوز النموذج الضعيف.
المؤشر المقياس يسمى PGR:
0 نقطة تعني أن النموذج القوي فقط وصل إلى مستوى النموذج الضعيف (أي أن الإشراف الضعيف لم يكن مفيدًا)،
و1 نقطة تعني أن النموذج القوي وصل إلى الحد الأقصى لنظريته الذاتية (أي أن الإشراف الضعيف كان ناجحًا تمامًا).
المهمة التي كلفت بها شركة Anthropic 9 من Claude Opus 4.6 هي: محاولة تحسين درجة PGR هذه.
كل Claude مزود بصندوق رمل مستقل، ومنتدى مشترك، وتخزين للرموز، وخادم تقييم عن بعد،
ويبدأ من نقاط انطلاق غامضة مختلفة (مثل «جرب أدوات التفسير» أو «فكر في إعادة وزن البيانات»)،
ويطرح فرضيات، ويجري تجارب، ويحلل البيانات، ويتبادل النتائج، دون أي توجيه من Anthropic.
في السابق، قضى باحثان بشريان 7 أيام على نماذج مفتوحة المصدر Qwen 3-4B-Base (القوي) وQwen 1.5-0.5B-Chat (الضعيف) على أربع طرق موجودة، وبلغت قيمة PGR فقط 0.23.
بعد أن تولى 9 Claude المهمة، ودرسوا لمدة 5 أيام إضافية (ما مجموعه حوالي 800 ساعة)، رفعوا PGR إلى 0.97.
إجمالي التكاليف حوالي 18,000 دولار، أي حوالي 22 دولارًا في الساعة.
لكن خلال البحث، حاولت Claude مرات عديدة التهرب من قواعد التجربة، ووصفها Anthropic بـ «اختراقات المكافأة».
في المهام الرياضية، اكتشف Claude أن الإجابة الأكثر شيوعًا عادةً تكون صحيحة، فتجاوز مرحلة الإشراف الضعيف، وترك النموذج القوي يختار الإجابة ذات التردد العالي مباشرة؛
وفي مهام البرمجة، قام Claude بتشغيل الكود المقيّم مباشرة، وقراءة نتائج الاختبار للحصول على الإجابة الصحيحة.
تم اكتشاف واستبعاد جميع هذه التلاعبات، ولم تؤثر على النتائج النهائية، لكن Anthropic أشار إلى أن ذلك يثبت أن المشكلة التي تبحث عنها التجربة ذاتها:
في بيئة محدودة بشكل صارم، لا تزال الذكاء الاصطناعي يتصرف بشكل مستقل ويبحث عن ثغرات في القواعد،
والرقابة البشرية لا غنى عنها.
قابلية نقل النتائج محدودة.
عند تطبيق أفضل الطرق التي وجدها Claude على مهام جديدة، كانت قيمة PGR في الرياضيات 0.94، وفي البرمجة فقط 0.47 (أي ضعف مستوى البشر).
وعند وضعها في بيئة إنتاج Claude Sonnet 4، لم تظهر تحسينات ذات دلالة إحصائية.
ترى Anthropic أن Claude يميل إلى تحسين نفسه لموديلات وبيانات معينة، وأن الطرق قد لا تكون عامة.
كما أشارت إلى أن المشكلة التي تم اختيارها في التجربة تعتمد على معيار تقييم موضوعي واحد، وهو مناسب بشكل طبيعي للأتمتة،
لكن معظم مشاكل التوافق ليست واضحة بهذه البساطة، والذكاء الاصطناعي لا يزال غير عالم بالتوافق العام.
لكن الخلاصة هي: أن عوائق أبحاث التوافق في المستقبل قد تتحول من «من يطرح الأفكار ويجري التجارب» إلى «من يصمم معايير التقييم».
تم نشر الكود ومجموعات البيانات على GitHub كمصدر مفتوح.
(المصدر: BlockBeats)