نتائج CMA عندما يكون الحكم قويًا جدًا، Fable 5 يجرؤ على التفكيك والإصلاح، Opus 4.7 لا يزال يثقب ويصلح، دورة التغذية الراجعة > إثبات أن هندسة التلميحات أصبحت مؤكدة

شاهد النسخة الأصلية
CoinNetwork
العمّة AI: باستخدام قاضٍ مستقل يحقق أداءً يزيد ستة أضعاف في فابل 5
موقع "بي جيه" يذكر أن أنثروبيك اجتازت اختبار المقارنة من خلال نتائج CMA في توليد تقييمات داخل سياق مستقل كحكام، استنادًا إلى تسع مؤشرات. أظهرت النتائج أن الدورة المستقلة للحكام أدت إلى تحسينات في خط أنابيب التدريب بمقدار 6 أضعاف ما حققه Opus 4.7 في تقييم فابل 5. أظهر فابل 5 مرونة قوية، وجرأة في إجراء تغييرات كبيرة على الهيكل، حتى مع تراجع التكميم، واستمر في الإصلاح؛ بالمقابل، كان Opus 4.7 يميل إلى التخصيص النموذجي بسبب قيود القرار. استنتاج التجربة: الدورة القابلة للتغذية الراجعة لتصحيح الأخطاء الذاتية وإدارة الذاكرة الذاتية أكثر قيمة من كتابة التعليمات مباشرة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت