V4-Pro Codeforces3206 перевершує GPT-5.4, посідаючи перше місце, але довгий контекст і знання все ще поступаються Opus та Gemini.

Новини ME, 24 квітня (UTC+8), за даними моніторингу Beating, технічний звіт V4 опублікував порівняння DeepSeek-V4-Pro-Max (режим максимальної логіки) із закритими флагманськими моделями. Група порівняння: Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, а також відкриті Kimi K2.6 та GLM-5.1, без щойно випущених Opus 4.7 та GPT-5.5. У кодуванні V4-Pro-Max набрав 3206 балів на Codeforces, перевершивши 3168 у GPT-5.4 та 3052 у Gemini 3.1 Pro, встановивши новий рекорд цього бенчмарку. LiveCodeBench 93.5 також найвищий показник. SWE Verified 80.6, лише на 0,2 відсоткових пункту нижче за 80.8 у Opus 4.6. Щодо довгого контексту, за двома бенчмарками 1M V4-Pro-Max посів друге місце: CorpusQA 1M – 62.0, поступаючись 71.7 у Opus 4.6, але випереджаючи 53.8 у Gemini 3.1 Pro; MRCR 1M – 83.5, тоді як Opus 4.6 лідирує з 92.9, майже на 10 відсоткових пунктів. Завдання Agent: MCPAtlas Public 73.6, лише нижче за 73.8 у Opus 4.6. Terminal-Bench 2.0 – 67.9, нижче за 75.1 у GPT-5.4 та 68.5 у Gemini 3.1 Pro. У знаннях та логіці V4-Pro-Max все ще має помітне відставання: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4). Як відкрита модель, V4-Pro-Max вперше наздогнав або навіть перевершив закриті флагмани за кількома бенчмарками кодування та довгого контексту, але все ще відстає від Gemini 3.1 Pro у знаннєвих тестах. Слід зазначити, що вищезгадане порівняння не включає щойно випущені GPT-5.5 та Opus 4.7, а відстань V4 до новітніх закритих моделей потребує перевірки сторонніми тестами. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено