SemiAnalysis prueba: GPT-5.5 vuelve a la vanguardia, pero OpenAI silenciosamente escondió un logro superado por Opus

robot
Generación de resúmenes en curso

Según el monitoreo de Beating, SemiAnalysis, una organización de análisis de semiconductores y AI, publicó una evaluación comparativa de asistentes de programación, cubriendo GPT-5.5, Opus 4.7 y DeepSeek V4.
Conclusión principal: GPT-5.5 es el primer modelo de programación de OpenAI en volver a la vanguardia en medio año, SemiAnalysis señala que los ingenieros comenzaron a alternar entre Codex y Claude Code, ya que casi todos usaban solo Claude anteriormente.
GPT-5.5 está basado en un nuevo preentrenamiento llamado «Spud», siendo la primera expansión del tamaño del preentrenamiento desde GPT-4.5.

En las pruebas, se formó una división del trabajo: Claude se encargó de la planificación y construcción inicial de nuevos proyectos, mientras que Codex realizó reparaciones de errores intensivas en razonamiento.
Codex es más fuerte en comprensión de estructuras de datos y razonamiento lógico, pero no es bueno para inferir intenciones vagas del usuario.
En una misma tarea de panel de control, Claude replicó automáticamente el diseño de la página de referencia pero inventó muchos datos, mientras que Codex omitió el diseño pero los datos eran mucho más precisos.

El artículo revela un detalle operativo de una prueba de referencia: en febrero de este año, OpenAI publicó un blog llamando a la industria a adoptar SWE-bench Pro como nuevo estándar de referencia para programación, pero el anuncio de GPT-5.5 usó un nuevo estándar llamado «Expert-SWE».
La razón está en una nota al pie en la parte inferior del anuncio: GPT-5.5 fue superado por Opus 4.7 en SWE-bench Pro, y mucho más abajo en comparación con Mythos, aún no divulgado por Anthropic (77.8%).

En cuanto a Opus 4.7, Anthropic publicó un análisis postmortem una semana después, admitiendo que Claude Code tuvo tres errores en marzo y abril, que duraron varias semanas y afectaron a casi todos los usuarios.
Anteriormente, varios ingenieros reportaron una caída en el rendimiento de 4.6, pero se consideró una percepción subjetiva.
Además, el nuevo tokenizador de 4.7 puede aumentar el uso de tokens en un máximo del 35%, y Anthropic reconoce esto, lo que equivale a un aumento de precios implícito.

DeepSeek V4 fue calificado como «siguiendo la vanguardia pero no líder», siendo la opción de menor costo para modelos de código cerrado.
El artículo también afirma que «Claude todavía supera a DeepSeek V4 Pro en tareas de escritura en chino de alta dificultad» y comenta «Claude ganó usando el idioma del oponente contra modelos chinos».

El artículo plantea un concepto clave: la evaluación del precio de los modelos debe basarse en «costo por tarea» en lugar de «costo por token».
El precio unitario de GPT-5.5 es el doble de GPT-5.4 (5 dólares de entrada, 30 dólares de salida / millón de tokens), pero realiza la misma tarea con menos tokens, por lo que el costo real no necesariamente es más alto.
SemiAnalysis muestra preliminarmente que la proporción de entrada a salida de Codex es 80:1, menor que la de Claude Code, que es 100:1.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado