V4-Pro Codeforces3206 superó a GPT-5.4 en la cima, pero el contexto largo y el conocimiento aún están por debajo de Opus y Gemini

robot
Generación de resúmenes en curso

Según la monitorización de Beating, se publicó el informe técnico de V4 comparando DeepSeek-V4-Pro-Max (modo de inferencia máxima) con los modelos insignia de código cerrado. El grupo de comparación incluye Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, así como Kimi K2.6 y GLM-5.1 de código abierto, excluyendo los recientes lanzamientos de Opus 4.7 y GPT-5.5.

En términos de codificación, V4-Pro-Max obtuvo 3206 puntos en Codeforces, superando a GPT-5.4 con 3168 y Gemini 3.1 Pro con 3052, estableciendo un nuevo récord en esta métrica. LiveCodeBench también alcanzó un máximo de 93.5 en toda la evaluación. SWE Verified obtuvo 80.6, solo 0.2 puntos por debajo de los 80.8 de Opus 4.6.

En cuanto al contexto largo, ambas métricas de referencia de 1M, V4-Pro-Max quedó en segundo lugar: CorpusQA 1M con una puntuación de 62.0, por detrás de Opus 4.6 con 71.7 pero por delante de Gemini 3.1 Pro con 53.8; MRCR 1M con 83.5, mientras que Opus 4.6 lidera con 92.9, casi 10 puntos porcentuales más.

En tareas de agentes, MCPAtlas Public con 73.6 solo está por debajo de Opus 4.6 con 73.8. Terminal-Bench 2.0 obtuvo 67.9, por debajo de GPT-5.4 con 75.1 y Gemini 3.1 Pro con 68.5.

En conocimientos y razonamiento, V4-Pro-Max aún presenta diferencias notables: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4). Como modelo de código abierto, V4-Pro-Max por primera vez iguala o supera a los modelos insignia de código cerrado en varias métricas de codificación y contexto largo, pero en evaluaciones de conocimiento intensivo todavía queda por detrás de Gemini 3.1 Pro.

Cabe señalar que la comparación anterior no incluye GPT-5.5 y Opus 4.7, lanzados recientemente, por lo que la diferencia entre V4 y los modelos de última generación de código cerrado requiere validación mediante evaluaciones de terceros.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado