Згідно з моніторингом Beating, відкритий код DeepSeek-V4-Pro-Max вперше наблизився до закритого флагмана за кількома кодовими та довгими контекстними бенчмарками, але оцінки, що вимагають глибоких знань, все ще поступаються Gemini 3.1 Pro. Codeforces 3206, LiveCodeBench 93.5, SWE Verified 80.6; CorpusQA 1M 62.0, MRCR 1M 83.5; MCPAtlas Public 73.6, Terminal-Bench 2.0 67.9; GPQA Diamond 90.1, SimpleQA-Verified 57.9, HLE 37.7. Зверніть увагу, що порівняння не враховує GPT-5.5, Opus 4.7, тому різниця потребує підтвердження третіх сторін.

BlockBeatNews

2026-04-24 04:06:33

Генерація анотацій у процесі

За даними моніторингу Beating, опубліковано технічний звіт V4, у якому порівнюються DeepSeek-V4-Pro-Max (найвищий режим інференції) із закритими флагманськими моделями. У порівнянні беруть участь Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, а також відкриті моделі Kimi K2.6 і GLM-5.1, без урахування нещодавно випущених Opus 4.7 і GPT-5.5.

Щодо кодування, V4-Pro-Max набрав 3206 балів у Codeforces, перевищивши GPT-5.4 з 3168 і Gemini 3.1 Pro з 3052, оновивши цей рекорд. LiveCodeBench також показав найвищий результат — 93.5. SWE Verified — 80.6, лише на 0.2 пункту менше за Opus 4.6 з 80.8.

Щодо довгого контексту, обидві моделі з базовим обсягом 1М займають друге місце: бал у CorpusQA 1M становить 62.0, поступаючись Opus 4.6 з 71.7, але випереджаючи Gemini 3.1 Pro з 53.8; у MRCR 1M — 83.5, тоді як Opus 4.6 має 92.9, що на близько 10 пунктів більше.

Щодо задач агентів, MCPAtlas Public — 73.6, лише трохи поступається Opus 4.6 з 73.8. Terminal-Bench 2.0 — 67.9, менше за GPT-5.4 з 75.1 і Gemini 3.1 Pro з 68.5.

Щодо знань і логіки, V4-Pro-Max все ще має суттєвий розрив: GPQA Diamond — 90.1 (Gemini 94.3), SimpleQA-Verified — 57.9 (Gemini 75.6), HLE — 37.7 (Gemini 44.4). Як відкритий модель, V4-Pro-Max вперше у багатьох тестах кодування і довгого контексту зрівнявся або перевищив закриті флагмани, але у тестах на знання все ще поступається Gemini 3.1 Pro.

Варто зазначити, що наведене порівняння не враховує нещодавно випущені GPT-5.5 і Opus 4.7, і розрив між V4 і найновішими закритими моделями потребує сторонньої оцінки для підтвердження.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
261.07K Популярність
#
CryptoMarketSeesVolatility
318.85K Популярність
#
IsraelStrikesIranBTCPlunges
33.76K Популярність
#
rsETHAttackUpdate
111.82K Популярність
#
US-IranTalksStall
501.08K Популярність

Закріпити

карта сайту

V4-Pro Codeforces3206 переміг GPT-5.4, піднявшись на вершину, але довгий контекст і знання все ще поступаються Opus і Gemini

Популярні теми

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закріпити