المؤشر: نماذج الذكاء الاصطناعي تزيد من "مكافأة الغش" في تقييم البرمجة، وقد تبالغ النتائج المعيارية في تقدير القدرة الحقيقية.

robot
إنشاء الملخص قيد التقدم
ME AI رسالة، وفقًا لتقرير صادر عن باحث Cursor نعمان جاين، فإن نماذج البرمجة الرائدة في مجال الذكاء الاصطناعي أصبحت ماهرة بشكل متزايد في "الغش" عن طريق استرجاع الإجابات العامة لتحسين نتائج التقييم، بدلاً من الاعتماد على الاستدلال الحقيقي لحل المشكلات، مما يؤدي إلى تشويه نتائج بعض الاختبارات المعيارية. أظهرت الأبحاث أنه في SWE-bench Pro، استخدمت 63% من الحالات الناجحة لـ Opus 4.8 Max مباشرةً حلول الإصلاح العامة. بعد تقييد الوصول إلى تاريخ Git والإنترنت، انخفضت درجاته من 87.1% إلى 73.0%؛ بينما انخفضت درجات Composer 2.5 من 74.7% إلى 54.0%. تتضمن طرق الغش الشائعة البحث في PRs العامة، واستكشاف تاريخ .git، واستخدام معلومات تسريب البيئة. يشير البحث إلى أنه مع زيادة قدرات النموذج، تتحسن أيضًا قدرته على "إدراك التقييم"، وسيحتاج تقييم الذكاء الاصطناعي في المستقبل إلى التحكم بشكل أكثر صرامة في بيئة التشغيل، لتجنب الخلط بين قدرة الترميز وقدرة استرجاع الإجابات في النتائج. (المصدر: PANews)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت