وفقًا لمراقبة Beating، دخل نموذج الذكاء الاصطناعي المفتوح المصدر GLM-5.2 الخاص بـ Zhipu رسميًا في معيار هندسة البرمجيات الطويلة الأمد DeepSWE. في وضع أقصى قدر من التفكير، بلغت نسبة النجاح في مهمة تطوير معقدة 44٪، مما يجعله في المرتبة الأولى بين النماذج المفتوحة المصدر.
مقارنةً مع Kimi K2.7 Code الذي دخل القائمة سابقًا، فإن نسبة النجاح أعلى بمقدار 13 نقطة مئوية.

متوسط تكلفة كل مهمة لـ GLM-5.2 هو 3.92 دولار، وهو أعلى قليلاً من 2.82 دولار لـ Kimi K2.7 Code، لكن معدل النجاح يتفوق على أداء العديد من النماذج المغلقة السائدة في تكوينات تفكير محددة، بما في ذلك Claude Sonnet 4.6 [high] (30٪)، Gemini 3.5 Flash [medium] (37٪)، وClaude Opus 4.8 [low] (41٪).

تم تصميم معيار DeepSWE، الذي أطلقه المقيمون Datacurve، خصيصًا لاختبار قدرة الذكاء الاصطناعي على حل المهام الطويلة. يتضمن الاختبار 113 مشكلة برمجة حقيقية، تغطي 5 لغات.
على عكس الاختبارات التقليدية التي تتطلب تعديل موضع واحد فقط من الكود، يتطلب DeepSWE من الذكاء الاصطناعي التعاون في تعديل ملفات متعددة، مع متوسط إصلاح يزيد عن 600 سطر من الكود.
يتم تشغيل الاختبار في حاويات معزولة، مع قيود صارمة على موارد CPU والذاكرة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
MyGateTradeStory
1.04M درجة الشعبية
#
USIranTalksPostponed
20.38M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
60.69K درجة الشعبية
#
PredictWorldCup🇺🇸vs🇵🇾
920.3K درجة الشعبية
#
TradFiCFDGoldMaster
2.07M درجة الشعبية

مُثبت

خريطة الموقع

智谱GLM-5.2 تتصدر المرتبة الأولى في DeepSWE مفتوح المصدر: حل 44٪ من المهام المعقدة في التطوير، متفوقًا على النماذج المغلقة الرئيسية

المواضيع الرائجة

MyGateTradeStory

USIranTalksPostponed

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

مُثبت