V4-Pro Codeforces3206 ضغط GPT-5.4 يتصدر، لكن السياق الطويل والمعرفة لا تزال تتفوق على Opus و Gemini

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، تم الإعلان عن تقرير تقنية V4 بالمقارنة بين DeepSeek-V4-Pro-Max (وضع الاستدلال الأعلى) والنسخة الرائدة المغلقة المصدر. مجموعة المقارنة تشمل Opus 4.6 Max، GPT-5.4 xHigh، Gemini 3.1 Pro High، بالإضافة إلى Kimi K2.6 و GLM-5.1 مفتوحي المصدر، مع استبعاد الإصدارين الأخيرين Opus 4.7 و GPT-5.5.

في جانب الترميز، حصل V4-Pro-Max على 3206 نقطة في Codeforces، متفوقًا على GPT-5.4 الذي حصل على 3168 و Gemini 3.1 Pro الذي حصل على 3052، محطماً الرقم القياسي لهذا المعيار. كما أن LiveCodeBench سجل 93.5 وهو الأعلى على الإطلاق. وSWE Verified سجل 80.6، فقط أقل من Opus 4.6 الذي حقق 80.8 بفارق 0.2 نقطة.

في جانب السياق الطويل، احتلت نسختا 1M من معيارين المرتبة الثانية: حصلت CorpusQA 1M على 62.0 نقطة، متأخرة عن Opus 4.6 الذي حقق 71.7، ومتقدمة على Gemini 3.1 Pro الذي حصل على 53.8؛ وMRCR 1M حصل على 83.5 نقطة، بينما تفوقت Opus 4.6 التي حققت 92.9، بفارق يقارب 10 نقاط مئوية.

في مهمة الوكيل، سجل MCPAtlas Public 73.6، وهو أقل بقليل من Opus 4.6 الذي حقق 73.8. أما Terminal-Bench 2.0 فحقق 67.9 نقطة، وهو أدنى من GPT-5.4 الذي حصل على 75.1 و Gemini 3.1 Pro الذي حصل على 68.5.

أما في مجالي المعرفة والاستدلال، لا يزال هناك فجوة واضحة مع V4-Pro-Max: GPQA Diamond سجل 90.1 (Gemini 94.3)، وSimpleQA-Verified سجل 57.9 (Gemini 75.6)، وHLE سجل 37.7 (Gemini 44.4). كونه نموذج مفتوح المصدر، تمكن V4-Pro-Max من مضاهاة أو التفوق على النماذج الرائدة المغلقة في العديد من معايير الترميز والسياق الطويل، لكنه لا يزال يتخلف عن Gemini 3.1 Pro في الاختبارات المعتمدة على المعرفة المكثفة.

من المهم ملاحظة أن المقارنة أعلاه لا تشمل GPT-5.5 و Opus 4.7 اللذين تم إصدارهما مؤخرًا، ويجب انتظار تقييمات طرف ثالث للتحقق من الفجوة بين V4 وأحدث النماذج المغلقة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت