V4-Pro Codeforces3206 supera o GPT-5.4 e atinge o topo, mas ainda perde para Opus e Gemini em contexto longo e conhecimento.

ME News notícias, 24 de abril (UTC+8), de acordo com o monitoramento do Beating, o relatório técnico V4 divulgou a comparação entre o DeepSeek-V4-Pro-Max (modo de raciocínio máximo) e os modelos emblemáticos fechados. O grupo de comparação inclui Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, e os modelos open source Kimi K2.6 e GLM-5.1, excluindo os recentemente lançados Opus 4.7 e GPT-5.5.
Em termos de codificação, o V4-Pro-Max obteve 3206 pontos no Codeforces, superando os 3168 do GPT-5.4 e os 3052 do Gemini 3.1 Pro, estabelecendo um novo recorde nessa referência. LiveCodeBench 93.5 também foi o mais alto de todos. SWE Verified 80.6, apenas 0,2 pontos percentuais abaixo dos 80,8 do Opus 4.6.
Em termos de contexto longo, o V4-Pro-Max ficou em segundo lugar em ambas as referências de 1M: CorpusQA 1M obteve 62.0, atrás dos 71.7 do Opus 4.6, mas à frente dos 53.8 do Gemini 3.1 Pro; MRCR 1M obteve 83.5, com o Opus 4.6 liderando com 92.9, uma vantagem de quase 10 pontos percentuais.
Em tarefas de agente, MCPAtlas Public 73.6 está apenas abaixo dos 73.8 do Opus 4.6. Terminal-Bench 2.0 obteve 67.9, abaixo dos 75.1 do GPT-5.4 e dos 68.5 do Gemini 3.1 Pro.
Em conhecimento e raciocínio, o V4-Pro-Max ainda apresenta diferenças significativas: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4). Como modelo open source, o V4-Pro-Max igualou ou até superou pela primeira vez os modelos emblemáticos fechados em várias referências de codificação e contexto longo, mas ainda fica atrás do Gemini 3.1 Pro em avaliações intensivas em conhecimento.
É importante notar que a comparação acima não inclui os recentemente lançados GPT-5.5 e Opus 4.7, e a diferença entre o V4 e a mais recente geração de modelos fechados precisa ser verificada por avaliações de terceiros.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado