V4-Pro Codeforces3206 يتفوق على GPT-5.4 ويحتل القمة، لكن السياق الطويل والمعرفة ما زالا يخسران أمام Opus وGemini.

ME News أخبار، 24 أبريل (UTC+8)، وفقًا لمراقبة Beating، نشر تقرير V4 الفني مقارنة بين DeepSeek-V4-Pro-Max (أعلى وضع تفكير) والنماذج المغلقة الرائدة. مجموعة المقارنة تشمل Opus 4.6 Max و GPT-5.4 xHigh و Gemini 3.1 Pro High، بالإضافة إلى النماذج مفتوحة المصدر Kimi K2.6 و GLM-5.1، ولا تشمل Opus 4.7 و GPT-5.5 الصادرين حديثًا. في مجال البرمجة، حصل V4-Pro-Max على 3206 نقطة في Codeforces، متجاوزًا 3168 لـ GPT-5.4 و 3052 لـ Gemini 3.1 Pro، محطمًا الرقم القياسي لهذا المعيار. LiveCodeBench 93.5 هو الأعلى أيضًا. SWE Verified 80.6، أقل بـ 0.2 نقطة مئوية عن Opus 4.6 البالغ 80.8. في السياقات الطويلة، جاء V4-Pro-Max في المركز الثاني في معيارين 1M: CorpusQA 1M حصل على 62.0، متخلفًا عن Opus 4.6 (71.7) ولكنه متقدم على Gemini 3.1 Pro (53.8)؛ MRCR 1M حصل على 83.5، بينما Opus 4.6 يتقدم بنحو 10 نقاط مئوية عند 92.9. في مهام الوكيل، MCPAtlas Public 73.6 أقل بقليل من Opus 4.6 البالغ 73.8. Terminal-Bench 2.0 حصل على 67.9، أقل من 75.1 لـ GPT-5.4 و 68.5 لـ Gemini 3.1 Pro. في المعرفة والاستدلال، لا يزال V4-Pro-Max متخلفًا بشكل ملحوظ: GPQA Diamond 90.1 (Gemini 94.3)، SimpleQA-Verified 57.9 (Gemini 75.6)، HLE 37.7 (Gemini 44.4). كنموذج مفتوح المصدر، تمكن V4-Pro-Max لأول مرة من مساواة أو حتى تجاوز النماذج المغلقة الرائدة في عدة معايير للبرمجة والسياقات الطويلة، لكنه لا يزال متخلفًا عن Gemini 3.1 Pro في التقييمات كثيفة المعرفة. تجدر الإشارة إلى أن المقارنات المذكورة أعلاه لا تشمل GPT-5.5 و Opus 4.7 الصادرين حديثًا، والفجوة بين V4 وأحدث جيل من النماذج المغلقة تنتظر التحقق من طرف ثالث. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت