De acordo com a monitorização do Beating, o DeepSeek-V4-Pro-Max de código aberto, em várias tarefas de codificação e benchmarks de contexto longo, aproxima-se pela primeira vez do flagship de código fechado, mas ainda fica atrás do Gemini 3.1 Pro em avaliações de conhecimento intensivo. Codeforces 3206, LiveCodeBench 93.5, SWE Verified 80.6; CorpusQA 1M 62.0, MRCR 1M 83.5; MCPAtlas Public 73.6, Terminal-Bench 2.0 67.9; GPQA Diamond 90.1, SimpleQA-Verified 57.9, HLE 37.7. Atenção à comparação sem incluir GPT-5.5, Opus 4.7, cuja diferença precisa de validação por terceiros.

BlockBeatNews

2026-04-24 04:06:33

Geração de resumo em curso

De acordo com o monitoramento Beating, o relatório técnico do V4 foi divulgado comparando o DeepSeek-V4-Pro-Max (modo de inferência máxima) com o flagship de código fechado. O grupo de comparação inclui Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, além de Kimi K2.6 e GLM-5.1 de código aberto, excluindo o recém-lançado Opus 4.7 e GPT-5.5.

No aspecto de codificação, o V4-Pro-Max obteve 3206 pontos no Codeforces, superando GPT-5.4 com 3168 e Gemini 3.1 Pro com 3052, estabelecendo um novo recorde de referência. O LiveCodeBench marcou 93.5, também o mais alto de toda a avaliação. O SWE Verified atingiu 80.6, ficando apenas 0.2 pontos abaixo do Opus 4.6 com 80.8.

No aspecto de contexto longo, duas avaliações de referência de 1M, o V4-Pro-Max ficou em segundo lugar: CorpusQA 1M com pontuação de 62.0, atrás do Opus 4.6 com 71.7, mas à frente do Gemini 3.1 Pro com 53.8; MRCR 1M com pontuação de 83.5, enquanto o Opus 4.6 lidera com 92.9, quase 10 pontos percentuais à frente.

No aspecto de tarefas de agentes, MCPAtlas Public com 73.6 ficou apenas abaixo do Opus 4.6 com 73.8. Terminal-Bench 2.0 obteve 67.9 pontos, abaixo do GPT-5.4 com 75.1 e do Gemini 3.1 Pro com 68.5.

No campo de conhecimento e raciocínio, o V4-Pro-Max ainda apresenta diferenças notáveis: GPQA Diamond com 90.1 (Gemini 94.3), SimpleQA-Verified com 57.9 (Gemini 75.6), HLE com 37.7 (Gemini 44.4). Como modelo de código aberto, o V4-Pro-Max igualou ou superou pela primeira vez vários benchmarks de codificação e contexto longo em relação ao flagship de código fechado, mas ainda fica atrás do Gemini 3.1 Pro em avaliações de conhecimento intensivo.

É importante notar que as comparações acima não incluem o recém-lançado GPT-5.5 e Opus 4.7, e a diferença entre o V4 e os modelos de última geração de código fechado ainda precisa ser verificada por avaliações de terceiros.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
153.13K Popularidade
#
CryptoMarketSeesVolatility
218.36K Popularidade
#
IsraelStrikesIranBTCPlunges
31.32K Popularidade
#
rsETHAttackUpdate
66.38K Popularidade
#
US-IranTalksStall
172.68K Popularidade

Fixar

V4-Pro Codeforces3206 supera GPT-5.4 na liderança, mas o longo contexto e o conhecimento ainda ficam atrás de Opus e Gemini

Tópicos em destaque

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Fixar