BinEval تقسم التقييم إلى أسئلة صح/خطأ، هذه الفكرة رائعة، حيث يتم ضغط مساحة تضخيم النتائج مباشرة، وأخيرًا يمكن كشف الأوهام التي تبدو سلسة ولكنها خاطئة في الواقع.

شاهد النسخة الأصلية
CoinNetwork
يستخدم إطار BinEval الأسئلة الصحيحة/الخاطئة لتقييم الذكاء الاصطناعي تلقائيًا، مما يحل مشكلة الإبلاغ الكاذب عن الدرجة الكاملة والغموض في نموذج الحكم.
يقوم BinEval بتحويل التقييم إلى أسئلة بنعم/لا، ويجيب على كل سؤال على حدة ثم يسجل النتائج بناءً على معدل الصحة، مما يعزز الشفافية ويحد من المبالغة. تظهر الأبحاث أن نتائجه تقترب أو تتجاوز Unieval في مجموعات بيانات متعددة، وهو بارع بشكل خاص في اكتشاف الإجابات التي تبدو سليمة ظاهريًا ولكنها خاطئة واقعيًا. على سبيل المثال، في ملخص اعتراض الطائرة، أعطى الحكم القديم درجة كاملة 5.0، بينما حصل BinEval على 1.57 من خلال سبعة أسئلة بنعم/لا، وهو قريب من درجة الإنسان 2.0. يؤدي تحسين التغذية الراجعة إلى رفع الامتثال للتنسيق بنحو 17 نقطة مئوية، لكنه لا يزال غير قادر على تحسين القيود الصارمة مثل عدد الكلمات.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت