وفقًا لمراقبة Beating، فإن النموذج المفتوح المصدر DeepSeek-V4-Pro-Max يقترب لأول مرة من النماذج الرائدة المغلقة المصدر في العديد من معايير التشفير والسياق الطويل، لكن التقييمات المعرفية المكثفة لا تزال تتخلف عن Gemini 3.1 Pro. Codeforces 3206، LiveCodeBench 93.5، SWE Verified 80.6؛ CorpusQA 1M 62.0، MRCR 1M 83.5؛ MCPAtlas Public 73.6، Terminal-Bench 2.0 67.9؛ GPQA Diamond 90.1، SimpleQA-Verified 57.9، HLE 37.7. يُرجى ملاحظة أن المقارنة لا تشمل GPT-5.5 و Opus 4.7، والفجوة بحاجة إلى التحقق من طرف ثالث.

BlockBeatNews

2026-04-24 04:06:33

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، تم الإعلان عن تقرير تقنية V4 بالمقارنة بين DeepSeek-V4-Pro-Max (وضع الاستدلال الأعلى) والنسخة الرائدة المغلقة المصدر. مجموعة المقارنة تشمل Opus 4.6 Max، GPT-5.4 xHigh، Gemini 3.1 Pro High، بالإضافة إلى Kimi K2.6 و GLM-5.1 مفتوحي المصدر، مع استبعاد الإصدارين الأخيرين Opus 4.7 و GPT-5.5.

في جانب الترميز، حصل V4-Pro-Max على 3206 نقطة في Codeforces، متفوقًا على GPT-5.4 الذي حصل على 3168 و Gemini 3.1 Pro الذي حصل على 3052، محطماً الرقم القياسي لهذا المعيار. كما أن LiveCodeBench سجل 93.5 وهو الأعلى على الإطلاق. وSWE Verified سجل 80.6، فقط أقل من Opus 4.6 الذي حقق 80.8 بفارق 0.2 نقطة.

في جانب السياق الطويل، احتلت نسختا 1M من معيارين المرتبة الثانية: حصلت CorpusQA 1M على 62.0 نقطة، متأخرة عن Opus 4.6 الذي حقق 71.7، ومتقدمة على Gemini 3.1 Pro الذي حصل على 53.8؛ وMRCR 1M حصل على 83.5 نقطة، بينما تفوقت Opus 4.6 التي حققت 92.9، بفارق يقارب 10 نقاط مئوية.

في مهمة الوكيل، سجل MCPAtlas Public 73.6، وهو أقل بقليل من Opus 4.6 الذي حقق 73.8. أما Terminal-Bench 2.0 فحقق 67.9 نقطة، وهو أدنى من GPT-5.4 الذي حصل على 75.1 و Gemini 3.1 Pro الذي حصل على 68.5.

أما في مجالي المعرفة والاستدلال، لا يزال هناك فجوة واضحة مع V4-Pro-Max: GPQA Diamond سجل 90.1 (Gemini 94.3)، وSimpleQA-Verified سجل 57.9 (Gemini 75.6)، وHLE سجل 37.7 (Gemini 44.4). كونه نموذج مفتوح المصدر، تمكن V4-Pro-Max من مضاهاة أو التفوق على النماذج الرائدة المغلقة في العديد من معايير الترميز والسياق الطويل، لكنه لا يزال يتخلف عن Gemini 3.1 Pro في الاختبارات المعتمدة على المعرفة المكثفة.

من المهم ملاحظة أن المقارنة أعلاه لا تشمل GPT-5.5 و Opus 4.7 اللذين تم إصدارهما مؤخرًا، ويجب انتظار تقييمات طرف ثالث للتحقق من الفجوة بين V4 وأحدث النماذج المغلقة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
151.39K درجة الشعبية
#
CryptoMarketSeesVolatility
215.94K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
31.32K درجة الشعبية
#
rsETHAttackUpdate
66.21K درجة الشعبية
#
US-IranTalksStall
171.91K درجة الشعبية

تثبيت

خريطة الموقع

V4-Pro Codeforces3206 ضغط GPT-5.4 يتصدر، لكن السياق الطويل والمعرفة لا تزال تتفوق على Opus و Gemini

المواضيع الرائجة

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

تثبيت