العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
تدعي أنثروبي أنها أوقفت خطر الابتزاز الخاص بـ Claude
أنتروبي أعلنت يوم الجمعة أن كلاود لم يعد يشارك في الابتزاز خلال تقييم السلامة الأساسي لوكلاء الذكاء الاصطناعي.
وفقًا لأنتروبي، جميع إصدارات كلاود التي تم إنشاؤها بعد كلاود هايكو 4.5 اجتازت تقييم السلامة دون تهديد المهندسين، أو استخدام البيانات الخاصة، أو مهاجمة أنظمة الذكاء الاصطناعي الأخرى، أو محاولة منع إغلاقها خلال السيناريو المحاكي.
هذا بعد أداء غير مرضٍ لكلاود خلال اختبار العام الماضي، حيث اختبرت أنتروبي نماذج ذكاء اصطناعي مختلفة من منظمات مختلفة باستخدام dilemmas أخلاقية محاكاة أدت إلى سلوك غير متوافق جدًا من قبل بعض وكلاء الذكاء الاصطناعي عند تعرضهم لظروف قصوى.
تقول أنتروبي إن كلاود 4 أظهر مشكلة سلامة فشلت التدريبات العادية للدردشة في إصلاحها
ذكرت أنتروبي أن هذه المشكلة حدثت أثناء تدريب كلاود 4. كانت هذه هي المرة الأولى التي تجري فيها الشركة تدقيق سلامة أثناء استمرار التدريب في المجموعة. ووفقًا للشركة، فإن عدم التوافق الوكالي هو واحد من العديد من المشاكل السلوكية التي لوحظت، مما دفع أنتروبي إلى تعديل تدريب السلامة الخاص بها بعد اختبار كلاود 4.
السببان اللذان نظر فيهما أنتروبي يشملان احتمال أن يكون التدريب بعد النموذج الأساسي مكافئًا للسلوكيات غير الملائمة أو أن السلوكيات كانت موجودة بالفعل داخل النموذج الأساسي، ولكن لم يتم القضاء عليها بشكل فعال من خلال تدريب إضافي للسلامة.
تعتقد أنتروبي أن السبب الأخير كان المساهم الرئيسي.
في ذلك الوقت، كانت معظم أعمال التوافق التي قامت بها الشركة تعتمد على طريقة RLHF القياسية، أو التعلم المعزز من ملاحظات الإنسان. كانت تعمل بشكل جيد على الدردشات القياسية حيث يرد النماذج على طلبات المستخدمين، لكنها ثبت أنها غير فعالة عند إجراء مهام تشبه الوكيل.
استخدمت الشركة نموذجها من فئة هايكو لإجراء تجربة صغيرة حول الفرضية. طبقت نسخة مختصرة من التدريب التي شملت بيانات لأغراض التوافق. كان هناك انخفاض طفيف في السلوك الخاطئ، تلاه عدم تحسن كبير بسرعة، مما يعني أن الحل لم يكن مسألة تدريب أكثر تقليدية.
ثم قامت الشركة بتدريب كلاود باستخدام سيناريوهات على نمط فخ العسل التي كانت لها بعض التشابهات مع تلك في اختبار التوافق. راقب المساعد مواقف مختلفة تتعلق بحماية نفسه، أو إيذاء ذكاء اصطناعي آخر، أو حتى كسر القواعد لتحقيق هدف. شمل التدريب جميع الحالات التي تمكن فيها المساعد من المقاومة.
خفضت هذه الإجراءات نسبة عدم التوافق من 22% إلى 15%، وهو ليس سيئًا لكنه بالتأكيد غير كافٍ. سمح إعادة كتابة الإجابات لذكر سبب الرفض بتقليل النسبة إلى 3%. وبالتالي، كانت النتيجة الرئيسية أن التدريب على السلوك الخاطئ كان أقل فاعلية من التدريب على سبب عدم ملاءمة السلوك الخاطئ.
اختبرت أنتروبي كلاود باستخدام بيانات أخلاقية، وملفات الدستور، وتدريب RL أوسع
ثم توقفت أنتروبي عن التدريب بالقرب من الاختبار الدقيق. أنشأت مجموعة بيانات تسمى النصيحة الصعبة. في تلك الأمثلة، واجه المستخدم المشكلة الأخلاقية، وليس الذكاء الاصطناعي. كان لدى المستخدم هدف عادل لكنه يمكن أن يحققه عن طريق كسر القواعد أو تجنب الرقابة. كان على كلاود أن يقدم نصيحة حذرة استنادًا إلى دستور كلاود.
استخدمت تلك المجموعة البيانات فقط 3 ملايين رمز وحققت نفس المكاسب السابقة بكفاءة أفضل بمقدار 28 مرة. قالت أنتروبي إن هذا مهم لأن التدريب على أمثلة لا تشبه الاختبار قد يكون أكثر فاعلية خارج المختبر.
وصل كلاود سونيت 4.5 إلى معدل ابتزاز قريب من الصفر بعد التدريب على فخاخ اصطناعية، لكنه لا يزال يفشل في حالات أكثر بكثير من تلك التي لا تشبه ذلك الإعداد مقارنة بكلاود أوبوس 4.5 والنماذج الأحدث.
كما قامت الشركة بتدريب كلاود على مستندات الدستور وقصص خيالية حول سلوك الذكاء الاصطناعي يتبع القواعد. لم تكن تلك الملفات تشبه اختبار الابتزاز، لكنها قللت من عدم التوافق الوكالي بأكثر من ثلاثة أضعاف. قالت أنتروبي إن الهدف كان إعطاء النموذج فهمًا أوضح لما يجب أن يكون عليه كلاود، وليس مجرد قائمة من الإجابات المعتمدة.
ثم تحققت الشركة مما إذا كانت تلك المكاسب ستظل بعد تدريب RL. قامت بتدريب إصدارات مختلفة من فئة هايكو باستخدام مجموعات بيانات بداية مختلفة، ثم أجرت اختبارًا يركز على السلامة غير الضارة. بقيت الإصدارات ذات التوافق الأفضل في المقدمة في اختبارات الابتزاز، وفحوصات الدستور، والمراجعات الآلية للسلامة.
اختبار آخر استخدم النموذج الأساسي تحت كلاود سونيت 4 مع خلطات مختلفة من RL. شملت بيانات السلامة الأساسية طلبات ضارة ومحاولات كسر الحماية. أضاف الإصدار الأوسع تعريفات الأدوات ومطالبات النظام المختلفة، على الرغم من أن الأدوات لم تكن ضرورية للمهام. أدى ذلك الإعداد إلى مكسب صغير لكنه حقيقي في درجات فخ العسل.
لا تكتفِ بقراءة أخبار العملات الرقمية. فهمها. اشترك في نشرتنا الإخبارية. إنها مجانية.