智谱GLM-5.2 تتصدر المرتبة الأولى في DeepSWE مفتوح المصدر: حل 44٪ من المهام المعقدة في التطوير، متفوقًا على النماذج المغلقة الرئيسية

robot
إنشاء الملخص قيد التقدم
وفقًا لمراقبة Beating، دخل نموذج الذكاء الاصطناعي المفتوح المصدر GLM-5.2 الخاص بـ Zhipu رسميًا في معيار هندسة البرمجيات الطويلة الأمد DeepSWE. في وضع أقصى قدر من التفكير، بلغت نسبة النجاح في مهمة تطوير معقدة 44٪، مما يجعله في المرتبة الأولى بين النماذج المفتوحة المصدر.
مقارنةً مع Kimi K2.7 Code الذي دخل القائمة سابقًا، فإن نسبة النجاح أعلى بمقدار 13 نقطة مئوية.

متوسط تكلفة كل مهمة لـ GLM-5.2 هو 3.92 دولار، وهو أعلى قليلاً من 2.82 دولار لـ Kimi K2.7 Code، لكن معدل النجاح يتفوق على أداء العديد من النماذج المغلقة السائدة في تكوينات تفكير محددة، بما في ذلك Claude Sonnet 4.6 [high] (30٪)، Gemini 3.5 Flash [medium] (37٪)، وClaude Opus 4.8 [low] (41٪).

تم تصميم معيار DeepSWE، الذي أطلقه المقيمون Datacurve، خصيصًا لاختبار قدرة الذكاء الاصطناعي على حل المهام الطويلة. يتضمن الاختبار 113 مشكلة برمجة حقيقية، تغطي 5 لغات.
على عكس الاختبارات التقليدية التي تتطلب تعديل موضع واحد فقط من الكود، يتطلب DeepSWE من الذكاء الاصطناعي التعاون في تعديل ملفات متعددة، مع متوسط إصلاح يزيد عن 600 سطر من الكود.
يتم تشغيل الاختبار في حاويات معزولة، مع قيود صارمة على موارد CPU والذاكرة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت