مراجعة داخلية لـ DeepSeek V4-Pro: معدل اجتياز الترميز يقترب من أوبس 4.5، و52٪ من المختبرين يؤيدونه كنموذج افتراضي

وفقًا للمراقبة التي أجرتها Dongcha Beating، نادرًا ما كشفت DeepSeek V4 عن بيانات داخلية عن استخدام المنتج بشكل داخلي. جمع الفريق حوالي 200 مهمة بحث وتطوير حقيقية من أكثر من 50 مهندسًا، تغطي التطوير الوظيفي، إصلاح الأخطاء، إعادة الهيكلة، والتشخيص، مع تقنية تشمل PyTorch، CUDA، Rust، و C++. بعد اختيار دقيق، تم الاحتفاظ بـ 30 مهمة كمجموعة تقييم. معدل النجاح لـ V4-Pro-Max هو 67%، وهو أعلى بكثير من 47% لـ Sonnet 4.5، وقريب من 70% لـ Opus 4.5، ولكنه أقل من 73% لـ Opus 4.5 Thinking و80% لـ Opus 4.6 Thinking. معدل النجاح لـ Haiku 4.5 هو فقط 13%. في استطلاع داخلي شمل N=85، أبلغ جميع المستجيبين عن استخدام V4-Pro للبرمجة الوكيلة في عملهم اليومي. 52% يعتقدون أن V4-Pro يمكن أن يكون النموذج الأساسي الافتراضي للبرمجة، و39% يميلون للموافقة، وأقل من 9% يختلفون. تشمل المشكلات الرئيسية في الملاحظات الأخطاء الأساسية، سوء فهم التعليمات الغامضة، والتفكير المفرط أحيانًا.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت