مراجعة داخلية لـ DeepSeek V4-Pro: معدل اجتياز الترميز يقترب من أوبس 4.5، و52٪ من المختبرين يؤيدونه كنموذج افتراضي

وفقًا للمراقبة بواسطة Dongcha Beating، نادرًا ما كشفت DeepSeek V4 عن بيانات داخلية عن الاختبار الذاتي. جمعت الفريق حوالي 200 مهمة بحث وتطوير حقيقية من أكثر من 50 مهندسًا، تغطي التطوير الوظيفي، إصلاح الأخطاء، إعادة الهيكلة، والتشخيص، مع تقنية تشمل PyTorch، CUDA، Rust، و C++. بعد اختيار دقيق، تم الاحتفاظ بـ 30 مهمة كمجموعة تقييم. معدل النجاح لـ V4-Pro-Max هو 67%، وهو أعلى بكثير من 47% لـ Sonnet 4.5، وقريب من 70% لـ Opus 4.5، ولكنه أقل من 73% لـ Opus 4.5 Thinking و80% لـ Opus 4.6 Thinking. معدل النجاح لـ Haiku 4.5 هو فقط 13%. في استطلاع داخلي شمل N=85، أبلغ جميع المستجيبين عن استخدام V4-Pro للبرمجة الوكيلة في عملهم اليومي. يعتقد 52% أن V4-Pro يمكن أن يكون النموذج الأساسي للبرمجة الافتراضية، و39% يميلون للموافقة، وأقل من 9% يختلفون. تشمل المشكلات الرئيسية في التعليقات الأخطاء الأساسية، سوء فهم التعليمات الغامضة، والتفكير المفرط أحيانًا.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت