Según Beating Monitor, el código abierto DeepSeek-V4-Pro-Max en múltiples estándares de codificación y contexto largo se acerca por primera vez a los buques insignia de código cerrado, pero las evaluaciones intensivas en conocimiento aún quedan por detrás de Gemini 3.1 Pro. Codeforces 3206, LiveCodeBench 93.5, SWE Verified 80.6; CorpusQA 1M 62.0, MRCR 1M 83.5; MCPAtlas Public 73.6, Terminal-Bench 2.0 67.9; GPQA Diamond 90.1, SimpleQA-Verified 57.9, HLE 37.7. Tenga en cuenta que en comparación con GPT-5.5, Opus 4.7, la brecha requiere verificación por terceros.

BlockBeatNews

2026-04-24 04:06:33

Generación de resúmenes en curso

Según la monitorización de Beating, se publicó el informe técnico de V4 comparando DeepSeek-V4-Pro-Max (modo de inferencia máxima) con los modelos insignia de código cerrado. El grupo de comparación incluye Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, así como Kimi K2.6 y GLM-5.1 de código abierto, excluyendo los recientes lanzamientos de Opus 4.7 y GPT-5.5.

En términos de codificación, V4-Pro-Max obtuvo 3206 puntos en Codeforces, superando a GPT-5.4 con 3168 y Gemini 3.1 Pro con 3052, estableciendo un nuevo récord en esta métrica. LiveCodeBench también alcanzó un máximo de 93.5 en toda la evaluación. SWE Verified obtuvo 80.6, solo 0.2 puntos por debajo de los 80.8 de Opus 4.6.

En cuanto al contexto largo, ambas métricas de referencia de 1M, V4-Pro-Max quedó en segundo lugar: CorpusQA 1M con una puntuación de 62.0, por detrás de Opus 4.6 con 71.7 pero por delante de Gemini 3.1 Pro con 53.8; MRCR 1M con 83.5, mientras que Opus 4.6 lidera con 92.9, casi 10 puntos porcentuales más.

En tareas de agentes, MCPAtlas Public con 73.6 solo está por debajo de Opus 4.6 con 73.8. Terminal-Bench 2.0 obtuvo 67.9, por debajo de GPT-5.4 con 75.1 y Gemini 3.1 Pro con 68.5.

En conocimientos y razonamiento, V4-Pro-Max aún presenta diferencias notables: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4). Como modelo de código abierto, V4-Pro-Max por primera vez iguala o supera a los modelos insignia de código cerrado en varias métricas de codificación y contexto largo, pero en evaluaciones de conocimiento intensivo todavía queda por detrás de Gemini 3.1 Pro.

Cabe señalar que la comparación anterior no incluye GPT-5.5 y Opus 4.7, lanzados recientemente, por lo que la diferencia entre V4 y los modelos de última generación de código cerrado requiere validación mediante evaluaciones de terceros.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
153.13K Popularidad
#
CryptoMarketSeesVolatility
218.36K Popularidad
#
IsraelStrikesIranBTCPlunges
31.32K Popularidad
#
rsETHAttackUpdate
66.38K Popularidad
#
US-IranTalksStall
172.68K Popularidad

Anclado

V4-Pro Codeforces3206 superó a GPT-5.4 en la cima, pero el contexto largo y el conocimiento aún están por debajo de Opus y Gemini

Temas de actualidad

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Anclado