Una lectura rápida de GPT-5.5: A partir de hoy OpenAI ya no "vende" tokens

Autor: Li Hailun, Tencent Technology

El 23 de abril, hora local, OpenAI lanzó oficialmente su nuevo modelo insignia de próxima generación GPT-5.5, que la compañía define como “una nueva capa inteligente orientada al trabajo real”, siendo también un paso importante hacia una forma completamente nueva de trabajar con computadoras.

En esta publicación, los puntos centrales de atención son dos:

  • Primero, un avance en eficiencia: bajo la misma latencia, el modelo es más grande y no más lento. La ventana de contexto de GPT-5.5 alcanza 1 millón de Tokens, pero no es solo una actualización de capacidades de GPT-5.4, sino que ha logrado una inteligencia superior con la misma latencia en eficiencia.

  • Segundo, GPT-5.5 participó en la optimización de su infraestructura de razonamiento durante el entrenamiento. En pocas palabras, la IA aprendió por primera vez a ajustar sus propios parámetros.

En la prueba de flujo de trabajo de línea de comandos compleja Terminal-Bench 2.0, GPT-5.5 obtuvo una puntuación del 82.7%, superando en más de 13 puntos porcentuales al Claude Opus 4.7 con 69.4%; en la prueba de operación independiente en una computadora real OSWorld-Verified, la tasa de éxito fue del 78.7%, superando la línea base humana; en la evaluación de trabajos que abarcan conocimientos profesionales en 44 áreas diferentes GDPval, el 84.9% de las tareas alcanzaron o superaron el nivel de expertos del sector.

Sin embargo, el precio de GPT-5.5 también ha aumentado notablemente.

El precio de la API es de 5 dólares por cada millón de Tokens de entrada y 30 dólares por cada millón de Tokens de salida, el doble que GPT-5.4 (2.50 dólares por entrada y 15 dólares por salida), pero el equipo oficial enfatiza que GPT-5.5 reduce significativamente la cantidad de Tokens necesarios para completar las mismas tareas, por lo que el costo total puede no aumentar mucho. La API GPT-5.5 Pro cuesta 30 dólares por millón de Tokens de entrada y 180 dólares por salida. La gestión en lotes y la fijación de precios flexibles disfrutan de un 50% de descuento, con prioridad de procesamiento a 2.5 veces el precio estándar.

En ChatGPT, GPT-5.5 se lanza en forma de “GPT-5.5 Thinking”, reemplazando gradualmente versiones anteriores.

Una pequeña innovación adicional es: antes de comenzar a pensar, el modelo primero proporciona un resumen de ideas, y el usuario puede intervenir en cualquier momento durante la ejecución para ajustar la dirección.

Resumiendo en una frase el significado de GPT-5.5: los modelos anteriores eran solo un conjunto de capacidades, mientras que GPT-5.5 se acerca más a un sistema de trabajo que planifica, verifica y avanza de manera continua.

84.9% de tareas, al nivel de profesionales

Imagen: Comparación entre GPT-5.5 y otros competidores en Terminal-Bench 2.0, GDPval, OSWorld-Verified y otros benchmarks clave

Primero, observemos el rendimiento de los modelos en escenarios profesionales reales. OpenAI utilizó un benchmark llamado “GDPval”, que requiere que el modelo complete un conjunto completo de tareas profesionales. La prueba cubre 44 escenarios laborales, incluyendo modelado financiero, análisis legal, informes de ciencia de datos, planificación operativa, entre otros.

Los resultados muestran que GPT-5.5 alcanza o supera el nivel de profesionales en el 84.9% de las tareas. En comparación, GPT-5.4 obtiene 83.0%, Claude Opus 4.7 logra 80.3%, y Gemini 3.1 Pro solo 67.3%.

Esta diferencia no solo se refleja en la puntuación total. En tareas de modelado en hojas de cálculo, GPT-5.5 en pruebas internas obtiene un 88.5%; en tareas de modelado a nivel de banca de inversión también lidera respecto a la generación anterior. Los primeros usuarios también reportan que las respuestas de GPT-5.5 Pro son claramente más completas, estructuradas y útiles que las de GPT-5.4 Pro, especialmente en los ámbitos comercial, legal, educativo y de ciencia de datos.

Solo mirando los números, uno puede volverse insensible, pero OpenAI decidió mostrarte directamente su espacio de trabajo interno.

OpenAI afirma que más del 85% de sus empleados usan Codex semanalmente en departamentos de finanzas, comunicación, marketing, producto y ciencia de datos. El equipo de comunicación utilizó Codex para analizar datos de invitaciones a conferencias durante seis meses, creando un proceso de clasificación automatizado; el equipo financiero revisó 24,771 formularios K-1, sumando 71,637 páginas, completándolo dos semanas antes que el año pasado; el equipo de expansión de mercado automatizó la generación de informes semanales, ahorrando entre 5 y 10 horas por persona cada semana.

Esto ya no es solo una demo de laboratorio, sino una rutina de trabajo cotidiana.

El modelo de programación autónoma más potente

OpenAI afirma que GPT-5.5 es actualmente su modelo de programación autónoma más potente.

En Terminal-Bench 2.0 (que evalúa flujos de trabajo complejos en línea de comandos, requiriendo planificación, iteración y coordinación de herramientas), GPT-5.5 obtuvo 82.7%, en comparación con 75.1% de GPT-5.4, una mejora cercana a 8 puntos porcentuales, además de consumir menos Tokens. En SWE-Bench Pro (que evalúa la capacidad de resolver problemas reales en GitHub en una sola solución), GPT-5.5 alcanzó un 58.6%. En la evaluación interna Expert-SWE (que mide tareas de programación a largo plazo, con un tiempo medio de unos 20 horas humanas), GPT-5.5 también superó a GPT-5.4.

Imagen: Gráficos de dispersión de Terminal-Bench 2.0 y Expert-SWE

Impulsado por Codex, GPT-5.5 ya puede partir de una simple indicación y completar todo el proceso de desarrollo, desde generación de código, pruebas funcionales hasta depuración visual.

Un ejemplo presentado por OpenAI muestra una misión espacial basada en datos orbitales reales de NASA, que soporta interacción en 3D y simulaciones de mecánica orbital con precisión física real; un rastreador sísmico conectado a datos en tiempo real y visualizado, demostrando que el modelo puede llamar a APIs externas, manejar datos dinámicos y renderizar en tiempo real.

En cuanto a retroalimentación de uso, el CEO y fundador de Every, Dan Shipper, compartió una experiencia: había detectado un bug en producción que no pudo resolver en días, y tuvo que pedir a los ingenieros más capacitados de la compañía que reescribieran parte del sistema. Cuando GPT-5.5 salió, hizo un experimento: volver al estado del bug sin arreglar y ver si podía generar una solución igual a la de los ingenieros. GPT-5.4 no pudo, pero GPT-5.5 sí. Comentó: “Es el primer modelo de programación con una claridad conceptual real que he usado”.

Un ingeniero de Nvidia calificó la mejora de forma más directa: “Perder acceso a GPT-5.5 sería como perder una extremidad”.

El cofundador y CEO de Cursor, Michael Truell, añadió: GPT-5.5 es más inteligente y resistente que GPT-5.4, y puede mantenerse más tiempo en tareas largas y complejas sin detenerse prematuramente, algo que es crucial en ingeniería.

Trabajo cognitivo: la IA por primera vez puede “usar” una computadora

En la prueba OSWorld-Verified (que evalúa si el modelo puede operar de forma independiente en un entorno real de computadora), GPT-5.5 logró una tasa de éxito del 78.7%, superior al 75.0% de GPT-5.4 y al 78.0% de Claude Opus 4.7.

No se trata solo de análisis en capturas de pantalla, sino de control real de pantalla: ver interfaz, hacer clic, ingresar datos, cambiar entre herramientas, hasta completar la tarea. GPT-5.5 permite por primera vez sentir que la IA puede usar realmente la misma computadora contigo.

En la prueba Tau2-bench de flujo de trabajo en atención al cliente, GPT-5.5 alcanzó una precisión del 98.0% sin ajuste previo de indicaciones, mientras que GPT-5.4 solo logró 92.8%.

Esto indica que el modelo comprende suficientemente bien la intención de la tarea, pudiendo manejar procesos complejos de diálogo en múltiples pasos sin necesidad de indicaciones cuidadosamente diseñadas.

En capacidades de búsqueda de herramientas, GPT-5.5 obtuvo 84.4% en BrowseComp, y GPT-5.5 Pro alcanzó 90.1%, demostrando un rendimiento fuerte en tareas de investigación que requieren buscar, integrar y razonar con múltiples fuentes de información.

Investigación científica: ayudando a descubrir nuevas demostraciones matemáticas

En esta publicación, el rendimiento de GPT-5.5 en el campo de la investigación científica puede ser la parte más sorprendente.

Hasta ahora, cuando hablamos de IA en investigación, generalmente la consideramos una “herramienta auxiliar” para buscar literatura, escribir código o organizar datos. Pero esta vez, su papel se ha adelantado claramente, participando en los aspectos más centrales: razonamiento complejo e incluso descubrimiento.

En GeneBench (evaluación de análisis de datos en genética y biología cuantitativa en múltiples etapas), GPT-5.5 obtuvo un 25.0%, frente a 19.0% de GPT-5.4. Estas tareas suelen requerir días de trabajo de expertos, y el modelo debe razonar sobre datos potencialmente erróneos, manejar factores de confusión ocultos y aplicar métodos estadísticos modernos sin supervisión.

En el gráfico, se observa que a medida que aumenta la cantidad de Tokens de salida, la puntuación de GPT-5.5 siempre supera a GPT-5.4, y en torno a 15,000 Tokens se abre una brecha clara, indicando que en tareas largas que requieren razonamiento profundo, la ventaja de GPT-5.5 se amplifica con la complejidad.

En BixBench (benchmark de bioinformática y análisis de datos en el mundo real), GPT-5.5 con un 80.5% de puntuación lidera sobre GPT-5.4 con 74.0%, posicionándose entre los mejores modelos publicados.

Lo que realmente llama la atención es un caso concreto: una versión interna de GPT-5.5 equipada con marco de herramientas personalizadas ayudó a descubrir una nueva demostración matemática sobre el número de Ramsey, que fue verificada en la herramienta formal Lean. El número de Ramsey es un objeto central en la combinatoria, con logros muy raros y de alta dificultad técnica. No solo generó código o explicaciones, sino que aportó una demostración matemática real.

En aplicaciones prácticas, la profesora de inmunología en Jackson Laboratory, Derya Unutmaz, usó GPT-5.5 Pro para analizar un conjunto de datos de expresión génica con 62 muestras y casi 28,000 genes, generando informes detallados y extrayendo hallazgos y preguntas clave — una tarea que normalmente tomaría meses a un equipo.

El profesor asistente de matemáticas en la Universidad Adam Mickiewicz en Poznan, Bartosz Naskręcki, con solo una indicación, usó Codex con GPT-5.5 para construir en 11 minutos una aplicación de geometría algebraica que visualiza la intersección de dos superficies cuadráticas y transforma la curva resultante en un modelo de Weierstrass. Los coeficientes en tiempo real en la pantalla pueden usarse directamente en investigaciones matemáticas posteriores, completando todo el proceso desde la indicación hasta la herramienta de investigación independiente.

Imagen: Captura de la aplicación de geometría algebraica construida por el profesor Naskręcki — visualización de intersección de superficies cuadráticas y cálculo en tiempo real de la ecuación de Weierstrass

El cofundador de Axiom Bio, Brandon White, fue más directo: “Si OpenAI mantiene este ritmo, la base para descubrimiento de fármacos cambiará para fin de año.”

Eficiencia en razonamiento: la IA ayudó a optimizar su infraestructura

Un detalle que puede pasar desapercibido en esta publicación, pero que quizás sea el avance técnico más importante, es que GPT-5.5, aunque más grande y potente, mantiene la misma latencia por Token en servicio real que GPT-5.4. Para lograr capacidades superiores con la misma latencia, OpenAI rediseñó toda la infraestructura de inferencia — y Codex y GPT-5.5 participaron directamente en esta optimización.

En el gráfico de índice de inteligencia Artificial Analysis, se puede ver claramente: en el eje horizontal, la cantidad total de Tokens de salida (en escala logarítmica), y en el vertical, la puntuación de inteligencia global. La curva de GPT-5.5 no solo supera a GPT-5.4, Claude Opus 4.7 y Gemini 3.1 Pro en puntuación, sino que en intervalos donde consume menos Tokens ya alcanza niveles que otros modelos solo logran con más Tokens — mayor capacidad, menor costo, una manifestación clara de “mejora en eficiencia”.

Imagen: Gráfico de línea del índice de inteligencia Artificial Analysis

El problema principal fue el balance de carga: antes, dividir solicitudes en bloques fijos para equilibrar GPU no era óptimo para todos los tipos de tráfico. Codex analizó semanas de datos de tráfico en producción y diseñó un algoritmo heurístico personalizado, logrando aumentar la velocidad de generación de Tokens en más del 20%.

GPT-5.5 fue diseñado en colaboración con los sistemas NVIDIA GB200 y GB300 NVL72, en entrenamiento y despliegue conjunto. En otras palabras, esta generación de modelos participó en la optimización de su propia arquitectura de inferencia — no es solo una metáfora, sino una mejora literal en cómo la IA ejecuta su propio sistema.

Seguridad cibernética: capacidades mejoradas y control más estricto

GPT-5.5 muestra una mejora clara en capacidades de ciberseguridad. En CyberGym, obtuvo 81.8%, frente a 79.0% de GPT-5.4 y 73.1% de Claude Opus 4.7. En desafíos internos de “Captura la Bandera” (CTF), alcanzó 88.1%, frente a 83.7% de GPT-5.4.

Imagen: Gráfico de barras de CyberGym y dispersión de desafíos CTF

OpenAI clasifica las capacidades de ciberseguridad y química/biología de GPT-5.5 como “alto” en el marco de preparación de emergencia, aún no en “crítico”, pero con mejoras evidentes respecto a versiones anteriores. También admiten que los nuevos clasificadores de riesgo más estrictos “pueden resultar incómodos para algunos usuarios inicialmente”, y seguirán ajustando.

Para equilibrar la defensa y las restricciones de acceso, OpenAI lanzó el plan de “Acceso confiable en ciberseguridad”: investigadores de seguridad y defensores de infraestructura crítica que cumplan requisitos pueden solicitar permisos más flexibles para usar capacidades avanzadas de ciberseguridad con menos fricciones.

La lógica detrás de esto es que la expansión de capacidades es una tendencia irreversible; una vía más realista que limitar la difusión es permitir que los defensores tengan acceso a las herramientas más poderosas antes que los atacantes.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado