تقييم داخلي لـ V4-Pro: معدل اجتياز الترميز يقترب من Opus4.5، و52% من المختبرين الداخليين يعترفون به كنموذج افتراضي.

robot
إنشاء الملخص قيد التقدم
ME News رسالة، في 24 أبريل (UTC+8)، وفقًا لمراقبة Beating، كشفت V4 نادرًا عن بيانات dogfooding الداخلية.
قام الفريق بجمع حوالي 200 مهمة بحث وتطوير حقيقية من أكثر من 50 مهندسًا، تغطي تطوير الميزات وإصلاح الأخطاء وإعادة الهيكلة والتشخيص، وتشمل تقنيات PyTorch و CUDA و Rust و C++، وبعد فرز صارم تم الاحتفاظ بـ 30 كمقياس تقييم.
معدل النجاح لـ V4-Pro-Max هو 67%، أعلى بشكل ملحوظ من Sonnet 4.5 البالغ 47%، وقريب من Opus 4.5 البالغ 70%، ولكنه أقل من Opus 4.5 Thinking البالغ 73% و Opus 4.6 Thinking البالغ 80%.
معدل النجاح لـ Haiku 4.5 هو 13% فقط.
في استطلاع داخلي N=85، استخدم جميع المستجيبين V4-Pro في الترميز الوكيل (agentic coding) في عملهم اليومي.
يعتقد 52% أن V4-Pro يمكن أن يكون نموذج الترميز الرئيسي الافتراضي، ويميل 39% إلى الموافقة، وأقل من 9% يعارضون.
تشمل المشكلات الرئيسية التي تم الإبلاغ عنها الأخطاء المنخفضة المستوى، وسوء فهم الموجهات (prompt) الغامضة، والتفكير المفرط العرضي.
(المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت