V4-Pro Codeforces3206 supera a GPT-5.4 y alcanza la cima, pero en contexto largo y conocimiento aún pierde frente a Opus y Gemini.

ME News noticias, 24 de abril (UTC+8), según monitoreo de Beating, el informe técnico de V4 publica la comparación entre DeepSeek-V4-Pro-Max (modo de razonamiento máximo) y los modelos cerrados de punta. El grupo de comparación incluye Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, y los de código abierto Kimi K2.6 y GLM-5.1, sin incluir los recién lanzados Opus 4.7 y GPT-5.5.
En cuanto a codificación, V4-Pro-Max obtuvo 3206 puntos en Codeforces, superando los 3168 de GPT-5.4 y los 3052 de Gemini 3.1 Pro, estableciendo un nuevo récord en ese benchmark. LiveCodeBench 93.5 también es el más alto entre todos. SWE Verified 80.6, solo 0.2 puntos porcentuales por debajo de Opus 4.6 con 80.8.
En contexto largo, V4-Pro-Max ocupa el segundo lugar en ambos benchmarks de 1M: CorpusQA 1M puntuación 62.0, por detrás de Opus 4.6 con 71.7 pero superando a Gemini 3.1 Pro con 53.8; MRCR 1M puntuación 83.5, mientras Opus 4.6 lidera con 92.9, casi 10 puntos porcentuales de ventaja.
En tareas de agente, MCPAtlas Public 73.6 solo por debajo de Opus 4.6 con 73.8. Terminal-Bench 2.0 puntuación 67.9, inferior a GPT-5.4 con 75.1 y Gemini 3.1 Pro con 68.5.
En conocimiento y razonamiento, V4-Pro-Max aún muestra brechas significativas: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4). Como modelo de código abierto, V4-Pro-Max iguala o incluso supera por primera vez a los modelos cerrados de punta en múltiples benchmarks de codificación y contexto largo, pero aún queda rezagado frente a Gemini 3.1 Pro en evaluaciones intensivas en conocimiento.
Cabe señalar que la comparación anterior no incluye los recién lanzados GPT-5.5 y Opus 4.7, y la brecha de V4 con la última generación de modelos cerrados está pendiente de verificación por evaluaciones de terceros.
(Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado