V4-Pro Codeforces3206 превзошёл GPT-5.4 и возглавил рейтинг, но в длинных контекстах и знаниях всё ещё уступает Opus и Gemini.

ME News сообщает, 24 апреля (UTC+8), по данным мониторинга Beating, технический отчет V4 опубликовал сравнение DeepSeek-V4-Pro-Max (режим максимальной интенсивности рассуждений) с закрытыми флагманскими моделями. В группе сравнения: Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, а также открытые Kimi K2.6 и GLM-5.1, без недавно выпущенных Opus 4.7 и GPT-5.5. В плане кодирования V4-Pro-Max набрал 3206 баллов на Codeforces, превзойдя 3168 у GPT-5.4 и 3052 у Gemini 3.1 Pro, установив новый рекорд по этому бенчмарку. LiveCodeBench 93.5 также самый высокий показатель. SWE Verified 80.6, что всего на 0,2 процентных пункта ниже, чем у Opus 4.6 (80.8). В длинном контексте V4-Pro-Max занял второе место по обоим бенчмаркам 1M: CorpusQA 1M — 62,0 балла, уступая Opus 4.6 (71,7), но опережая Gemini 3.1 Pro (53,8); MRCR 1M — 83,5 балла, при этом Opus 4.6 лидирует с 92,9, опережая почти на 10 процентных пунктов. В задачах агентов MCPAtlas Public — 73,6, лишь немного уступая Opus 4.6 (73,8). Terminal-Bench 2.0 — 67,9 баллов, ниже, чем у GPT-5.4 (75,1) и Gemini 3.1 Pro (68,5). В области знаний и рассуждений V4-Pro-Max все еще демонстрирует заметное отставание: GPQA Diamond 90,1 (Gemini 94,3), SimpleQA-Verified 57,9 (Gemini 75,6), HLE 37,7 (Gemini 44,4). Как открытая модель, V4-Pro-Max впервые сравнялся или даже превзошел закрытые флагманские модели по многим бенчмаркам кодирования и длинного контекста, но все еще отстает от Gemini 3.1 Pro в оценках, требующих интенсивных знаний. Следует отметить, что приведенное сравнение не включает недавно выпущенные GPT-5.5 и Opus 4.7, и разрыв V4 с новейшими закрытыми моделями еще предстоит проверить сторонними тестами. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено