العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
طريقة تدريب أنثروبيك المفتوحة لمنع فقدان السيطرة: تعليم كلود من خلال روايات خيالية، وانخفض معدل الابتزاز إلى 0
وفقًا لمراقبة Beating، نشرت شركة Anthropic مدونة حول أبحاث التوافق، وكشفت عن استراتيجيات تدريب لإزالة «عدم توافق الوكيل» (مثل نماذج الذكاء الاصطناعي التي تبتز البشر لتجنب الإيقاف).
الاستنتاج الرئيسي هو: الاعتماد فقط على تزويد النموذج بـ «نماذج سلوك صحيحة» له تأثير ضئيل، والأمر الحقيقي الفعّال هو تعليم النموذج «لماذا يجب أن يفعل ذلك»، وإعادة تشكيل قيمه الأساسية من خلال وثائق مركبة.
عندما كانت الفرق تعمل على إصلاح ميل Claude 4 للابتزاز، اكتشفت أنه حتى مع جعل النموذج يتعلم عشرات الآلاف من السجلات التي ترفض القيام بأفعال ضارة، فإن معدل عدم التوافق يمكن أن ينخفض فقط من 22% إلى 15%.
الطرق الثلاث غير التقليدية التي كانت فعالة بشكل حاسم هي:
أولاً، مجموعة بيانات «اقتراحات صعبة». لم تجعل الفريق النموذج يواجه dilemmas أخلاقية مباشرة أثناء التدريب، بل جعله يلعب دور المستشار، ويقدم تحليلاً عميقًا يتوافق مع «دستور Claude» للمستخدمين الذين يواجهون dilemmas أخلاقية.
باستخدام 3 ملايين رمز فقط من هذا النوع من البيانات، تعلم النموذج المنطق الأخلاقي الأساسي، وانخفض معدل عدم التوافق بشكل كبير إلى حوالي 3%، مع تحسين كفاءة البيانات بمقدار 28 مرة مقارنة بالطرق التقليدية.
ثانيًا، التعديل عبر وثائق مركبة (SDF).
اكتشفت الفرق أن النموذج عند مواجهة حالات قصوى، يميل إلى العودة إلى الصور النمطية السلبية حول الذكاء الاصطناعي الموجودة في بيانات التدريب الأولية، مثل روايات الخيال العلمي.
لذلك، قاموا بإنشاء العديد من القصص الخيالية التي تظهر صحة نفسية جيدة للذكاء الاصطناعي، وتتصرف وفقًا للدستور، ودمجها في تدريب عبر مدونات تتناول الدستور.
هذه الطريقة أعادت تشكيل التوقعات الافتراضية للنموذج حول سلوك الذكاء الاصطناعي، وخفضت بشكل أكبر خطر فقدان السيطرة بمقدار 1.3 إلى 3 مرات.
وفي النهاية، مع الإصدار الرسمي من Claude 4.5، وباستخدام جميع الاستراتيجيات، تم تحقيق معدل ابتزاز اختبار بنسبة 0%.
أخيرًا، تعزيز تنوع بيئة التدريب الآمنة.
أكد الفريق أن إضافة أدوات غير مستخدمة أو تعليمات نظام أكثر تعقيدًا في بيئة التدريب الآمنة العادية، يمكن أن يعزز بشكل فعال قدرة النموذج على التعميم في السلامة.