إطار BinEval يستخدم أسئلة صواب/خطأ لتقييم الذكاء الاصطناعي تلقائيًا، مما يحل مشكلة التقرير الكاذب للدرجة الكاملة وعدم الشفافية في نموذج الحكم.

ME AI رسالة، وفقًا لمراقبة Beating، اقترح فريق البحث في Capital One إطار تقييم BinEval، الذي يقوم تلقائيًا بتفكيك معايير التسجيل المعقدة إلى أسئلة محددة من نوع "نعم أو لا"، مما يحل مشكلة التقييم كالصندوق الأسود والدرجات المرتفعة بشكل غير واقعي. يجعل الإطار نموذج التقييم يجيب على كل سؤال من أسئلة الصواب والخطأ واحدًا تلو الآخر، وأخيرًا يحسب الدرجة باستخدام نسبة الإجابات الصحيحة. في اختبار ثلاثة مجموعات بيانات رئيسية، تطابقت جودة تسجيل BinEval باستخدام نماذج كبيرة مثل Claude Sonnet 4 مع أدوات التقييم الرئيسية مثل UniEval أو تجاوزتها، وهي بارعة بشكل خاص في اكتشاف الإجابات التي تبدو سلسة ولكنها خاطئة في الواقع. على سبيل المثال، في تقييم ملخص يتعلق باعتراض طائرة، على الرغم من أن الملخص كان سلسًا في القراءة وكانت الكيانات وأرقام الطائرات صحيحة، إلا أن الملخص قام بتبديل أقوال البنتاغون وروسيا، واختلق عنوان URL. نظرًا لأن الحكم القديم للذكاء الاصطناعي نظر إلى السطح فقط، أعطى درجة كاملة 5.0. بينما استخدم BinEval سبعة أسئلة من نوع الصواب والخطأ لاكتشاف أربعة أخطاء واقعية بدقة، وأعطى درجة 1.57، وهي قريبة جدًا من درجة 2.0 التي أعطاها البشر. يمكن استخدام دفتر أخطاء أسئلة الصواب والخطأ لتحسين معايير التقييم لنموذج الحكم نفسه، وكذلك لتعديل مطالبات كتابة النصوص تلقائيًا. أظهرت التجارب أنه في اختبار اتباع التعليمات، يمكن لتحسين التغذية الراجعة أن يزيد من الالتزام بالتنسيق وهيكل الجملة بنسبة 17 نقطة مئوية. ومع ذلك، بالنسبة للقدرات الصعبة التي تتطلب حسابات رياضية مثل تحديد عدد الكلمات، لا تزال أدوات التحسين غير قادرة على فعل أي شيء، كما أن الإفراط في تفكيك المتطلبات قد يجعل معايير التقييم صارمة للغاية. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت