V4-Pro Codeforces3206 supera a GPT-5.4 y se corona, pero en contexto largo y conocimiento todavía pierde frente a Opus y Gemini.

robot
Generación de resúmenes en curso
ME News noticias, 24 de abril (UTC+8), según el monitoreo de Beating, el informe técnico V4 publicó la comparación entre DeepSeek-V4-Pro-Max (modo de máxima intensidad de razonamiento) y los modelos cerrados de primera línea. El grupo de comparación incluye Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, y los de código abierto Kimi K2.6 y GLM-5.1, sin incluir los recién lanzados Opus 4.7 y GPT-5.5. En cuanto a codificación, V4-Pro-Max obtuvo 3206 puntos en Codeforces, superando los 3168 de GPT-5.4 y los 3052 de Gemini 3.1 Pro, estableciendo un nuevo récord en este punto de referencia. LiveCodeBench 93.5 también fue el más alto de todos. SWE Verified 80.6, solo inferior al 80.8 de Opus 4.6 por 0.2 puntos porcentuales. En cuanto a contexto largo, en dos puntos de referencia de 1M, V4-Pro-Max ocupó el segundo lugar: CorpusQA 1M obtuvo 62.0, por detrás del 71.7 de Opus 4.6 pero por delante del 53.8 de Gemini 3.1 Pro; MRCR 1M obtuvo 83.5, mientras que Opus 4.6 lideró con 92.9, casi 10 puntos porcentuales por delante. En tareas de agente, MCPAtlas Public 73.6 solo inferior al 73.8 de Opus 4.6. Terminal-Bench 2.0 obtuvo 67.9, inferior al 75.1 de GPT-5.4 y al 68.5 de Gemini 3.1 Pro. En conocimiento y razonamiento, V4-Pro-Max aún muestra una brecha significativa: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4). Como modelo de código abierto, V4-Pro-Max iguala o incluso supera a los modelos cerrados de primera línea en varios puntos de referencia de codificación y contexto largo por primera vez, pero aún está por detrás de Gemini 3.1 Pro en evaluaciones intensivas en conocimiento. Cabe señalar que la comparación anterior no incluye los recién lanzados GPT-5.5 y Opus 4.7, y la brecha entre V4 y la última generación de modelos cerrados está pendiente de verificación mediante evaluaciones de terceros. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado