V4-Pro Codeforces3206 supera GPT-5.4 e alcança o topo, mas ainda perde para Opus e Gemini em contexto longo e conhecimento.

ME News informa que, em 24 de abril (UTC+8), de acordo com o monitoramento do Beating, o relatório técnico V4 divulgou a comparação entre o DeepSeek-V4-Pro-Max (modo de raciocínio máximo) e os carros-chefes fechados. O grupo de comparação inclui Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, além dos de código aberto Kimi K2.6 e GLM-5.1, excluindo os recém-lançados Opus 4.7 e GPT-5.5. Em codificação, o V4-Pro-Max obteve 3206 pontos no Codeforces, superando os 3168 do GPT-5.4 e os 3052 do Gemini 3.1 Pro, estabelecendo um novo recorde no benchmark. LiveCodeBench 93,5 também foi o maior geral. SWE Verified 80,6, apenas 0,2 pontos percentuais abaixo dos 80,8 do Opus 4.6. Em contexto longo, em dois benchmarks de 1M, o V4-Pro-Max ficou em segundo lugar: CorpusQA 1M com 62,0, atrás dos 71,7 do Opus 4.6, mas à frente dos 53,8 do Gemini 3.1 Pro; MRCR 1M com 83,5, enquanto o Opus 4.6 liderou com 92,9, uma vantagem de quase 10 pontos percentuais. Em tarefas de agente, MCPAtlas Public 73,6, apenas abaixo dos 73,8 do Opus 4.6. Terminal-Bench 2.0 com 67,9, inferior aos 75,1 do GPT-5.4 e aos 68,5 do Gemini 3.1 Pro. Em conhecimento e raciocínio, o V4-Pro-Max ainda tem lacunas significativas: GPQA Diamond 90,1 (Gemini 94,3), SimpleQA-Verified 57,9 (Gemini 75,6), HLE 37,7 (Gemini 44,4). Como modelo de código aberto, o V4-Pro-Max igualou ou até superou os carros-chefes fechados pela primeira vez em vários benchmarks de codificação e contexto longo, mas ainda fica atrás do Gemini 3.1 Pro em avaliações intensivas de conhecimento. Deve-se notar que a comparação acima não inclui os recém-lançados GPT-5.5 e Opus 4.7; a diferença entre o V4 e a geração mais recente de modelos fechados precisa ser verificada por avaliações de terceiros. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado