V4-Pro Codeforces3206 перевершує GPT-5.4 та очолює рейтинг, але все ще поступається Opus та Gemini у довгому контексті та знаннях.

robot
Генерація анотацій у процесі
ME News повідомляє, 24 квітня (UTC+8), за даними моніторингу 动察 Beating, у технічному звіті V4 опубліковано порівняння DeepSeek-V4-Pro-Max (режим максимальної інтенсивності міркувань) із закритими флагманськими моделями. Група порівняння включає Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, а також відкриті Kimi K2.6 і GLM-5.1, без нещодавно випущених Opus 4.7 та GPT-5.5. У кодуванні V4-Pro-Max набрав 3206 балів на Codeforces, перевищивши 3168 у GPT-5.4 та 3052 у Gemini 3.1 Pro, встановивши новий рекорд для цього бенчмарку. LiveCodeBench 93.5 також є найвищим показником. SWE Verified 80.6, лише на 0,2 відсоткового пункту нижче за 80,8 у Opus 4.6. У довгому контексті V4-Pro-Max посідає друге місце в обох бенчмарках на 1M: CorpusQA 1M — 62,0, відстаючи від 71,7 у Opus 4.6, але випереджаючи 53,8 у Gemini 3.1 Pro; MRCR 1M — 83,5, де Opus 4.6 лідирує з 92,9, що майже на 10 відсоткових пунктів більше. У завданнях Agent MCPAtlas Public — 73,6, лише трохи нижче за 73,8 у Opus 4.6. Terminal-Bench 2.0 — 67,9, нижче за 75,1 у GPT-5.4 та 68,5 у Gemini 3.1 Pro. У сфері знань та міркувань V4-Pro-Max все ще має значне відставання: GPQA Diamond 90,1 (Gemini 94,3), SimpleQA-Verified 57,9 (Gemini 75,6), HLE 37,7 (Gemini 44,4). Як відкрита модель, V4-Pro-Max вперше наздогнав або навіть перевершив закриті флагмани в кількох бенчмарках кодування та довгого контексту, але все ще відстає від Gemini 3.1 Pro в тестах, інтенсивних на знання. Слід зазначити, що це порівняння не включає нещодавно випущені GPT-5.5 та Opus 4.7, і різницю V4 з новітніми закритими моделями ще належить перевірити через сторонні тести. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено