موقع عملة، أنثروبيك تنشر مدونة بحثية تقدم استراتيجية تدريب لإزالة "عدم التوافق الذكي" في نماذج Claude 4.5 والنماذج اللاحقة. أظهرت الدراسات أن الاعتماد فقط على "نماذج السلوك الصحيح" له فعالية محدودة، وأن الطريقة الفعالة حقًا هي تعليم النموذج "لماذا يجب أن يفعل ذلك"، وإعادة تشكيل القيم من خلال وثائق مركبة. اكتشف الفريق أن التعلم المستهدف من خلال مئات الآلاف من سجلات الرفض لمنع الأفعال السيئة قلل معدل عدم التوافق من 22% إلى 15%.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت