V4-Pro Codeforces3206 supera GPT-5.4 na liderança, mas o longo contexto e o conhecimento ainda ficam atrás de Opus e Gemini

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, o relatório técnico do V4 foi divulgado comparando o DeepSeek-V4-Pro-Max (modo de inferência máxima) com o flagship de código fechado. O grupo de comparação inclui Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, além de Kimi K2.6 e GLM-5.1 de código aberto, excluindo o recém-lançado Opus 4.7 e GPT-5.5.

No aspecto de codificação, o V4-Pro-Max obteve 3206 pontos no Codeforces, superando GPT-5.4 com 3168 e Gemini 3.1 Pro com 3052, estabelecendo um novo recorde de referência. O LiveCodeBench marcou 93.5, também o mais alto de toda a avaliação. O SWE Verified atingiu 80.6, ficando apenas 0.2 pontos abaixo do Opus 4.6 com 80.8.

No aspecto de contexto longo, duas avaliações de referência de 1M, o V4-Pro-Max ficou em segundo lugar: CorpusQA 1M com pontuação de 62.0, atrás do Opus 4.6 com 71.7, mas à frente do Gemini 3.1 Pro com 53.8; MRCR 1M com pontuação de 83.5, enquanto o Opus 4.6 lidera com 92.9, quase 10 pontos percentuais à frente.

No aspecto de tarefas de agentes, MCPAtlas Public com 73.6 ficou apenas abaixo do Opus 4.6 com 73.8. Terminal-Bench 2.0 obteve 67.9 pontos, abaixo do GPT-5.4 com 75.1 e do Gemini 3.1 Pro com 68.5.

No campo de conhecimento e raciocínio, o V4-Pro-Max ainda apresenta diferenças notáveis: GPQA Diamond com 90.1 (Gemini 94.3), SimpleQA-Verified com 57.9 (Gemini 75.6), HLE com 37.7 (Gemini 44.4). Como modelo de código aberto, o V4-Pro-Max igualou ou superou pela primeira vez vários benchmarks de codificação e contexto longo em relação ao flagship de código fechado, mas ainda fica atrás do Gemini 3.1 Pro em avaliações de conhecimento intensivo.

É importante notar que as comparações acima não incluem o recém-lançado GPT-5.5 e Opus 4.7, e a diferença entre o V4 e os modelos de última geração de código fechado ainda precisa ser verificada por avaliações de terceiros.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar