لقد أطلقت النسخة العامة الأولى من ConstraintGate.


الفكرة الأساسية:
معظم فشل الوكيل ليس فشلًا في التفكير.
إنها فشل في السلطة.
نموذج العمل قام بما هو مسموح له به، لكنه لم يكن مخولًا للقيام به.
لذا أنشأت موجه سلطة الوكيل: إطار تقييم/تقييم يتحقق مما إذا كان الوكيل قام بالعمل الصحيح، وليس فقط إذا كانت الإجابة تبدو جيدة.
يفصل بين:
- ما سمح به المستخدم
- ما يجب أن يؤديه الوكيل من primitives
- primitives المحظورة
- ما إذا كانت الاستجابة تجاوزت الحد
الإصدار 0.8 الآن يحتوي على:
- أدلة سلوكية تم الحكم عليها من قبل البشر
- تساوي في التقييم الحاسم ضد مجموعة البيانات الموسومة يدويًا المجمدة
- 38/39 اختبار سلوكي ناجح تحت الحكم
- 195/195 تساوي في تقييم المقياس على مستوى الميدان
- تم حل h019 كقطعة غير صالحة كقطعة تثبيت
- لا يوجد ادعاء بمرور اختبار قياسي تلقائي جديد
الهدف ليس "تحسين التعليمات".
الهدف هو قياس ما إذا كان الوكيل بقي داخل نطاق العمل المسموح له به.
دقة القيود تتفوق على مسرحية القيود.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت