يستخدم إطار BinEval الأسئلة الصحيحة/الخاطئة لتقييم الذكاء الاصطناعي تلقائيًا، مما يحل مشكلة الإبلاغ الكاذب عن الدرجة الكاملة والغموض في نموذج الحكم.

robot
إنشاء الملخص قيد التقدم
أخبار Coin World، يقوم إطار BinEval بتقييم الذكاء الاصطناعي تلقائيًا عبر أسئلة الصواب/الخطأ، بهدف حل مشكلة الإبلاغ غير الشفاف عن الدرجات الكاملة من قبل نماذج التحكيم.
اقترح فريق بحث Capital One هذا الإطار، حيث يقوم بتفكيك معايير التقييم المعقدة إلى أسئلة اختيار "نعم أو لا"، لضمان أن نموذج التقييم يجيب على كل سؤال على حدة، ثم يحسب النتيجة بناءً على نسبة الإجابات الصحيحة.
في اختبارات على ثلاث مجموعات بيانات رئيسية، تطابقت جودة تقييم BinEval باستخدام نماذج كبيرة مثل Claude Sonnet 4 مع أدوات التقييم الرئيسية مثل Unieval أو تجاوزتها، وهي بارعة بشكل خاص في تحديد الإجابات التي تبدو سلسة ولكنها خاطئة واقعيًا.
على سبيل المثال، في تقييم ملخص يتعلق باعتراض طائرة، أعطى المحكم القديم للذكاء الاصطناعي درجة كاملة 5.0 بسبب النظر فقط إلى السطح، بينما حدد BinEval من خلال سبعة أسئلة صواب/خطأ أربعة أخطاء واقعية، وأعطى درجة 1.57 قريبة من درجة الإنسان البالغة 2.0.
أظهرت التجارب أن تحسين التعليقات يمكن أن يزيد من معدل الالتزام بالتنسيق وبنية الجملة بمقدار 17 نقطة مئوية، لكن بالنسبة للقدرات الصلبة مثل الحسابات الرياضية (تقييد عدد الكلمات)، لا تزال أدوات التحسين عاجزة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 5
  • 1
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
L2NightCourier
· منذ 2 س
تحسن بنسبة 17% في التنسيق جيد، لكن مشكلة قيود عدد الكلمات لم تحل — أشعر أن القواعد الصارمة أسهل في التعامل، لكن الفهم المرن صعب.
شاهد النسخة الأصليةرد0
WalletPermissionAdministrator
· منذ 2 س
تصميم الأسئلة بنعم/لا هو بالفعل ذكي، حيث يحول التقييم الذاتي إلى أسئلة موضوعية قابلة للتدقيق، مما يقلص مساحة التزوير مباشرة.
شاهد النسخة الأصليةرد0
DepegDaydream
· منذ 2 س
مجموعات بيانات متعددة تقترب أو تتجاوز Unieval، هذه القدرة على النقل لها شيء ما، إنها ليست لعبة overfitting.
شاهد النسخة الأصليةرد0
ForkingDrama
· منذ 2 س
1.57 مقابل 5.0 هذا الفرق حقيقي جداً، النص الوهمي السلس ظاهرياً يمكن أخيراً كشفه.
شاهد النسخة الأصليةرد0
MosaicBow
· منذ 2 س
تقييم التحليل لسبع أسئلة هو أكثر دقة من المقياس العام 1-5، والعلامات البشرية 2.0 تشير إلى أن الاتجاه صحيح.
شاهد النسخة الأصليةرد0
  • مُثبت