GLM-5.2 هو ملك المعايير.


إنه أول نموذج مفتوح الوزن يحتل المركز الأول في عدة فئات (ويتفوق على نماذج الحدود عبر جميع المجالات).
الفائزون بالمركز الأول:
→ ساحة التصميم: حوالي 1360 إيلو، أول نموذج مفتوح الوزن يحتل المركز الأول، يتفوق على فابل 5 بحوالي 10 إيلو
→ اختبار الطرفية-مقياس 2.1: 81.0% (أفضل أداء 82.7%)، أول نموذج مفتوح يتجاوز 80%
→ مؤشر الذكاء الاصطناعي التحليلي الاصطناعي الإصدار 4.1: أفضل نموذج مفتوح الوزن، الدرجة 51
→ GDPval-AA الإصدار 2: النموذج المفتوح الرائد، تنافسي مع/متقدم على GPT-5.5
→ LiveBench Agentic Coding: المركز 1–2 بشكل عام
تصنيفات المراكز الثلاثة الأولى:
→ FrontierSWE (الهيمنة): المركز 3 بشكل عام، 74.4% (قريب من التعادل مع Opus 4.8 الذي حقق 75.1%)، يتفوق على GPT-5.5
→ SWE-bench Pro: المركز الأول بين النماذج المفتوحة، 62.1% (يتفوق على GPT-5.5 الذي حقق 58.6%)
→ MCP-Atlas (استخدام الأدوات): حوالي 77.0، قريب من/ضمن أفضل 3
→ امتحان الإنسانية الأخير (مع أدوات): حوالي 54.7، يتفوق على GPT-5.5
→ لوحة نتائج BenchLM: المركز 3–4 من بين 124 نموذجًا
→ ساحة الكود/الوكيل (الواجهة الأمامية): #2 overall, behind only Fable →PostTrainBench: #2 بشكل عام، خلف Opus 4.8، يتفوق على GPT-5.5
سيرة ذاتية مذهلة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت