تدعي أنثروبي أنها أوقفت خطر الابتزاز الخاص بـ Claude

أنتروبي أعلنت يوم الجمعة أن كلاود لم يعد يشارك في الابتزاز خلال تقييم السلامة الأساسي لوكلاء الذكاء الاصطناعي.

وفقًا لأنتروبي، جميع إصدارات كلاود التي تم إنشاؤها بعد كلاود هايكو 4.5 اجتازت تقييم السلامة دون تهديد المهندسين، أو استخدام البيانات الخاصة، أو مهاجمة أنظمة الذكاء الاصطناعي الأخرى، أو محاولة منع إغلاقها خلال السيناريو المحاكي.

هذا بعد أداء غير مرضٍ لكلاود خلال اختبار العام الماضي، حيث اختبرت أنتروبي نماذج ذكاء اصطناعي مختلفة من منظمات مختلفة باستخدام dilemmas أخلاقية محاكاة أدت إلى سلوك غير متوافق جدًا من قبل بعض وكلاء الذكاء الاصطناعي عند تعرضهم لظروف قصوى.

تقول أنتروبي إن كلاود 4 أظهر مشكلة سلامة فشلت التدريبات العادية للدردشة في إصلاحها

ذكرت أنتروبي أن هذه المشكلة حدثت أثناء تدريب كلاود 4. كانت هذه هي المرة الأولى التي تجري فيها الشركة تدقيق سلامة أثناء استمرار التدريب في المجموعة. ووفقًا للشركة، فإن عدم التوافق الوكالي هو واحد من العديد من المشاكل السلوكية التي لوحظت، مما دفع أنتروبي إلى تعديل تدريب السلامة الخاص بها بعد اختبار كلاود 4.

السببان اللذان نظر فيهما أنتروبي يشملان احتمال أن يكون التدريب بعد النموذج الأساسي مكافئًا للسلوكيات غير الملائمة أو أن السلوكيات كانت موجودة بالفعل داخل النموذج الأساسي، ولكن لم يتم القضاء عليها بشكل فعال من خلال تدريب إضافي للسلامة.

تعتقد أنتروبي أن السبب الأخير كان المساهم الرئيسي.

في ذلك الوقت، كانت معظم أعمال التوافق التي قامت بها الشركة تعتمد على طريقة RLHF القياسية، أو التعلم المعزز من ملاحظات الإنسان. كانت تعمل بشكل جيد على الدردشات القياسية حيث يرد النماذج على طلبات المستخدمين، لكنها ثبت أنها غير فعالة عند إجراء مهام تشبه الوكيل.

استخدمت الشركة نموذجها من فئة هايكو لإجراء تجربة صغيرة حول الفرضية. طبقت نسخة مختصرة من التدريب التي شملت بيانات لأغراض التوافق. كان هناك انخفاض طفيف في السلوك الخاطئ، تلاه عدم تحسن كبير بسرعة، مما يعني أن الحل لم يكن مسألة تدريب أكثر تقليدية.

ثم قامت الشركة بتدريب كلاود باستخدام سيناريوهات على نمط فخ العسل التي كانت لها بعض التشابهات مع تلك في اختبار التوافق. راقب المساعد مواقف مختلفة تتعلق بحماية نفسه، أو إيذاء ذكاء اصطناعي آخر، أو حتى كسر القواعد لتحقيق هدف. شمل التدريب جميع الحالات التي تمكن فيها المساعد من المقاومة.

خفضت هذه الإجراءات نسبة عدم التوافق من 22% إلى 15%، وهو ليس سيئًا لكنه بالتأكيد غير كافٍ. سمح إعادة كتابة الإجابات لذكر سبب الرفض بتقليل النسبة إلى 3%. وبالتالي، كانت النتيجة الرئيسية أن التدريب على السلوك الخاطئ كان أقل فاعلية من التدريب على سبب عدم ملاءمة السلوك الخاطئ.

اختبرت أنتروبي كلاود باستخدام بيانات أخلاقية، وملفات الدستور، وتدريب RL أوسع

ثم توقفت أنتروبي عن التدريب بالقرب من الاختبار الدقيق. أنشأت مجموعة بيانات تسمى النصيحة الصعبة. في تلك الأمثلة، واجه المستخدم المشكلة الأخلاقية، وليس الذكاء الاصطناعي. كان لدى المستخدم هدف عادل لكنه يمكن أن يحققه عن طريق كسر القواعد أو تجنب الرقابة. كان على كلاود أن يقدم نصيحة حذرة استنادًا إلى دستور كلاود.

استخدمت تلك المجموعة البيانات فقط 3 ملايين رمز وحققت نفس المكاسب السابقة بكفاءة أفضل بمقدار 28 مرة. قالت أنتروبي إن هذا مهم لأن التدريب على أمثلة لا تشبه الاختبار قد يكون أكثر فاعلية خارج المختبر.

وصل كلاود سونيت 4.5 إلى معدل ابتزاز قريب من الصفر بعد التدريب على فخاخ اصطناعية، لكنه لا يزال يفشل في حالات أكثر بكثير من تلك التي لا تشبه ذلك الإعداد مقارنة بكلاود أوبوس 4.5 والنماذج الأحدث.

كما قامت الشركة بتدريب كلاود على مستندات الدستور وقصص خيالية حول سلوك الذكاء الاصطناعي يتبع القواعد. لم تكن تلك الملفات تشبه اختبار الابتزاز، لكنها قللت من عدم التوافق الوكالي بأكثر من ثلاثة أضعاف. قالت أنتروبي إن الهدف كان إعطاء النموذج فهمًا أوضح لما يجب أن يكون عليه كلاود، وليس مجرد قائمة من الإجابات المعتمدة.

ثم تحققت الشركة مما إذا كانت تلك المكاسب ستظل بعد تدريب RL. قامت بتدريب إصدارات مختلفة من فئة هايكو باستخدام مجموعات بيانات بداية مختلفة، ثم أجرت اختبارًا يركز على السلامة غير الضارة. بقيت الإصدارات ذات التوافق الأفضل في المقدمة في اختبارات الابتزاز، وفحوصات الدستور، والمراجعات الآلية للسلامة.

اختبار آخر استخدم النموذج الأساسي تحت كلاود سونيت 4 مع خلطات مختلفة من RL. شملت بيانات السلامة الأساسية طلبات ضارة ومحاولات كسر الحماية. أضاف الإصدار الأوسع تعريفات الأدوات ومطالبات النظام المختلفة، على الرغم من أن الأدوات لم تكن ضرورية للمهام. أدى ذلك الإعداد إلى مكسب صغير لكنه حقيقي في درجات فخ العسل.

لا تكتفِ بقراءة أخبار العملات الرقمية. فهمها. اشترك في نشرتنا الإخبارية. إنها مجانية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت