SemiAnalysis evaluación comparativa muestra: GPT-5.5 en los últimos seis meses vuelve a la vanguardia por primera vez, Claude a cargo de la planificación de nuevos proyectos, Codex responsable de reparaciones de razonamiento intensivo; Claude replica la estrategia pero con muchos datos falsificados, los datos de Codex son más precisos. La referencia se cambió a Expert-SWE, GPT-5.5 en esa referencia queda por detrás de Opus 4.7, el nuevo tokenizador de Opus 4.7 aumenta hasta un 35% en cantidad de tokens. DeepSeek V4 sigue la vanguardia pero no lidera, la escritura en chino sigue siendo superior a la de los competidores. El precio debe medirse por el costo por tarea, el precio unitario de GPT-5.5 es el doble del de GPT-5.4, pero el costo real depende de los tokens utilizados. La proporción de entrada y salida de Codex es aproximadamente 80:1, y Claude Code alrededor de 100:1.

BlockBeatNews

2026-04-27 05:22:31

Generación de resúmenes en curso

Según el monitoreo de Beating, SemiAnalysis, una organización de análisis de semiconductores y AI, publicó una evaluación comparativa de asistentes de programación, cubriendo GPT-5.5, Opus 4.7 y DeepSeek V4.
Conclusión principal: GPT-5.5 es el primer modelo de programación de OpenAI en volver a la vanguardia en medio año, SemiAnalysis señala que los ingenieros comenzaron a alternar entre Codex y Claude Code, ya que casi todos usaban solo Claude anteriormente.
GPT-5.5 está basado en un nuevo preentrenamiento llamado «Spud», siendo la primera expansión del tamaño del preentrenamiento desde GPT-4.5.

En las pruebas, se formó una división del trabajo: Claude se encargó de la planificación y construcción inicial de nuevos proyectos, mientras que Codex realizó reparaciones de errores intensivas en razonamiento.
Codex es más fuerte en comprensión de estructuras de datos y razonamiento lógico, pero no es bueno para inferir intenciones vagas del usuario.
En una misma tarea de panel de control, Claude replicó automáticamente el diseño de la página de referencia pero inventó muchos datos, mientras que Codex omitió el diseño pero los datos eran mucho más precisos.

El artículo revela un detalle operativo de una prueba de referencia: en febrero de este año, OpenAI publicó un blog llamando a la industria a adoptar SWE-bench Pro como nuevo estándar de referencia para programación, pero el anuncio de GPT-5.5 usó un nuevo estándar llamado «Expert-SWE».
La razón está en una nota al pie en la parte inferior del anuncio: GPT-5.5 fue superado por Opus 4.7 en SWE-bench Pro, y mucho más abajo en comparación con Mythos, aún no divulgado por Anthropic (77.8%).

En cuanto a Opus 4.7, Anthropic publicó un análisis postmortem una semana después, admitiendo que Claude Code tuvo tres errores en marzo y abril, que duraron varias semanas y afectaron a casi todos los usuarios.
Anteriormente, varios ingenieros reportaron una caída en el rendimiento de 4.6, pero se consideró una percepción subjetiva.
Además, el nuevo tokenizador de 4.7 puede aumentar el uso de tokens en un máximo del 35%, y Anthropic reconoce esto, lo que equivale a un aumento de precios implícito.

DeepSeek V4 fue calificado como «siguiendo la vanguardia pero no líder», siendo la opción de menor costo para modelos de código cerrado.
El artículo también afirma que «Claude todavía supera a DeepSeek V4 Pro en tareas de escritura en chino de alta dificultad» y comenta «Claude ganó usando el idioma del oponente contra modelos chinos».

El artículo plantea un concepto clave: la evaluación del precio de los modelos debe basarse en «costo por tarea» en lugar de «costo por token».
El precio unitario de GPT-5.5 es el doble de GPT-5.4 (5 dólares de entrada, 30 dólares de salida / millón de tokens), pero realiza la misma tarea con menos tokens, por lo que el costo real no necesariamente es más alto.
SemiAnalysis muestra preliminarmente que la proporción de entrada a salida de Codex es 80:1, menor que la de Claude Code, que es 100:1.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
277.12K Popularidad
#
比特币Breaks79K
11.67M Popularidad
#
IsraelStrikesIranBTCPlunges
34.28K Popularidad
#
CryptoMarketsRiseBroadly
86.72K Popularidad
#
WHCADinnerShootingIncident
14.1K Popularidad

Anclado

SemiAnalysis prueba: GPT-5.5 vuelve a la vanguardia, pero OpenAI silenciosamente escondió un logro superado por Opus

Temas de actualidad

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Anclado