V4-Pro Codeforces3206 переміг GPT-5.4, піднявшись на вершину, але довгий контекст і знання все ще поступаються Opus і Gemini

robot
Генерація анотацій у процесі

За даними моніторингу Beating, опубліковано технічний звіт V4, у якому порівнюються DeepSeek-V4-Pro-Max (найвищий режим інференції) із закритими флагманськими моделями. У порівнянні беруть участь Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, а також відкриті моделі Kimi K2.6 і GLM-5.1, без урахування нещодавно випущених Opus 4.7 і GPT-5.5.

Щодо кодування, V4-Pro-Max набрав 3206 балів у Codeforces, перевищивши GPT-5.4 з 3168 і Gemini 3.1 Pro з 3052, оновивши цей рекорд. LiveCodeBench також показав найвищий результат — 93.5. SWE Verified — 80.6, лише на 0.2 пункту менше за Opus 4.6 з 80.8.

Щодо довгого контексту, обидві моделі з базовим обсягом 1М займають друге місце: бал у CorpusQA 1M становить 62.0, поступаючись Opus 4.6 з 71.7, але випереджаючи Gemini 3.1 Pro з 53.8; у MRCR 1M — 83.5, тоді як Opus 4.6 має 92.9, що на близько 10 пунктів більше.

Щодо задач агентів, MCPAtlas Public — 73.6, лише трохи поступається Opus 4.6 з 73.8. Terminal-Bench 2.0 — 67.9, менше за GPT-5.4 з 75.1 і Gemini 3.1 Pro з 68.5.

Щодо знань і логіки, V4-Pro-Max все ще має суттєвий розрив: GPQA Diamond — 90.1 (Gemini 94.3), SimpleQA-Verified — 57.9 (Gemini 75.6), HLE — 37.7 (Gemini 44.4). Як відкритий модель, V4-Pro-Max вперше у багатьох тестах кодування і довгого контексту зрівнявся або перевищив закриті флагмани, але у тестах на знання все ще поступається Gemini 3.1 Pro.

Варто зазначити, що наведене порівняння не враховує нещодавно випущені GPT-5.5 і Opus 4.7, і розрив між V4 і найновішими закритими моделями потребує сторонньої оцінки для підтвердження.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити