V4-Pro Codeforces3206 превзошел GPT-5.4 и занял первое место, но длинный контекст и знания все еще уступают Opus и Gemini.

robot
Генерация тезисов в процессе
ME News сообщает, 24 апреля (UTC+8), по данным мониторинга Beating, в техническом отчете V4 представлено сравнение DeepSeek-V4-Pro-Max (режим максимального уровня рассуждения) с закрытыми флагманскими моделями. Группа сравнения включает Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, а также открытые Kimi K2.6 и GLM-5.1, без недавно выпущенных Opus 4.7 и GPT-5.5. В области кодирования V4-Pro-Max набрал 3206 баллов на Codeforces, превзойдя 3168 у GPT-5.4 и 3052 у Gemini 3.1 Pro, установив новый рекорд в этом бенчмарке. LiveCodeBench 93.5 также является самым высоким показателем. SWE Verified 80.6, лишь на 0.2 процентных пункта ниже, чем 80.8 у Opus 4.6. В длинном контексте V4-Pro-Max занимает второе место по двум бенчмаркам 1M: CorpusQA 1M набрал 62.0, отставая от 71.7 у Opus 4.6, но опережая 53.8 у Gemini 3.1 Pro; MRCR 1M набрал 83.5, в то время как Opus 4.6 лидирует с 92.9, опережая почти на 10 процентных пунктов. В задачах Agent MCPAtlas Public 73.6 лишь немного ниже 73.8 у Opus 4.6. Terminal-Bench 2.0 набрал 67.9, ниже 75.1 у GPT-5.4 и 68.5 у Gemini 3.1 Pro. В области знаний и рассуждений V4-Pro-Max по-прежнему имеет заметное отставание: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4). Как открытая модель, V4-Pro-Max впервые сравнялся или даже превзошел закрытые флагманские модели по нескольким бенчмаркам кодирования и длинного контекста, но все еще отстает от Gemini 3.1 Pro в наукоемких оценках. Обратите внимание, что приведенное сравнение не включает недавно выпущенные GPT-5.5 и Opus 4.7, и разрыв V4 с новейшими закрытыми моделями требует проверки независимыми тестами. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено