V4-Pro Codeforces3206 supera GPT-5.4 e alcança o topo, mas em contexto longo e conhecimento ainda perde para Opus e Gemini

robot
Geração de resumo em curso
Notícias ME News, 24 de abril (UTC+8), de acordo com a monitorização do 动察 Beating, o relatório técnico V4 divulgou a comparação entre o DeepSeek-V4-Pro-Max (modo de maior intensidade de raciocínio) e os modelos fechados de topo. O grupo de comparação inclui Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, e os open-source Kimi K2.6 e GLM-5.1, excluindo os recentemente lançados Opus 4.7 e GPT-5.5.
Em termos de codificação, o V4-Pro-Max obteve 3206 pontos no Codeforces, superando os 3168 do GPT-5.4 e os 3052 do Gemini 3.1 Pro, estabelecendo um novo recorde nesse benchmark. LiveCodeBench 93.5 também foi o mais alto de todos. SWE Verified 80.6, apenas 0.2 pontos percentuais abaixo dos 80.8 do Opus 4.6.
No que diz respeito a contexto longo, o V4-Pro-Max ficou em segundo lugar nos dois benchmarks de 1M: CorpusQA 1M com pontuação 62.0, atrás dos 71.7 do Opus 4.6 mas à frente dos 53.8 do Gemini 3.1 Pro; MRCR 1M com 83.5, com o Opus 4.6 a liderar com 92.9, perto de 10 pontos percentuais à frente.
Em tarefas de agente, MCPAtlas Public 73.6 apenas inferior aos 73.8 do Opus 4.6. Terminal-Bench 2.0 com pontuação 67.9, inferior aos 75.1 do GPT-5.4 e aos 68.5 do Gemini 3.1 Pro.
Em conhecimento e raciocínio, o V4-Pro-Max ainda apresenta lacunas significativas: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4). Como modelo open-source, o V4-Pro-Max igualou ou até superou pela primeira vez os modelos fechados de topo em vários benchmarks de codificação e contexto longo, mas ainda fica atrás do Gemini 3.1 Pro em avaliações intensivas em conhecimento.
Importa notar que a comparação acima não inclui os recentemente lançados GPT-5.5 e Opus 4.7; a diferença do V4 para a mais recente geração de modelos fechados terá de ser verificada através de avaliações de terceiros.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado