¿GPT-5.4, el gran modelo "Agent nativo" ha llegado?

robot
Generación de resúmenes en curso

OpenAI finalmente lo ha entendido.

Justo dos días después de los rumores, el 5 de marzo, hora local, OpenAI lanzó oficialmente GPT-5.4. Y esta actualización del modelo se centra en la dirección más popular en la actualidad: los Agentes de IA.

Antes de GPT-5.4, los límites de las grandes modelos se podían resumir en una frase: pueden decirte “cómo hacerlo”, pero no pueden hacerlo por sí mismos.

Si le pides que analice a tus competidores, te dará un informe extenso en texto; si le pides que organice un Excel, te escribirá un código Python para que tú lo ejecutes; si le pides que reserve un vuelo, te indicará paso a paso en qué sitio web hacer clic y qué botones presionar.

La barrera, llamada “operación en la computadora”.

GPT-5.4 es el primer modelo general de OpenAI que elimina esa barrera.

GPT-5.4 en comparación con modelos anteriores|Fuente de la imagen: OpenAI

Puede reconocer contenido en pantalla mediante capturas, enviar instrucciones de ratón y teclado, y realizar flujos de trabajo en múltiples aplicaciones. Según palabras de OpenAI, es su “modelo más potente y eficiente hasta la fecha para tareas profesionales”.

Más técnicamente, GPT-5.4 soporta una ventana de contexto de hasta 1 millón de tokens y puede llamar a bibliotecas como Playwright para controlar directamente navegadores y aplicaciones de escritorio.

Esto significa que ya no trata solo sobre “diálogos sobre tareas”, sino sobre “la tarea en sí misma”.

01 La preparación de OpenAI

Si has estado siguiendo las acciones de OpenAI en los últimos meses, notarás que GPT-5.4 no es un producto que surgió de la nada, sino la última pieza en una estrategia clara.

Hace solo dos semanas, OpenAI lanzó GPT-5.3-Codex, elevando a Codex de “agente que puede escribir código” a “agente que puede realizar casi todas las tareas de un desarrollador en la computadora”, y estableció nuevos estándares en SWE-Bench Pro y Terminal-Bench.

Al mismo tiempo, OpenAI lanzó la plataforma empresarial “Frontier”, con HP, Intuit y Uber como primeros usuarios.

GPT-5.4 en tareas de llenado de tablas es claramente más inteligente que la versión 5.2|Fuente de la imagen: OpenAI

Antes de eso, el 2 de marzo, OpenAI y AWS ampliaron su colaboración de 3.800 millones de dólares a más de 100.000 millones de dólares, por un período de 8 años, con AWS como distribuidor exclusivo en la nube para la plataforma OpenAI Frontier. La magnitud de esa inversión ya es una señal.

La última ronda de financiación de 110.000 millones de dólares, en la que participaron Amazon, SoftBank y Nvidia con varios cientos de millones cada uno, también se concretó en ese mismo período.

No es una empresa que solo se dedique a “desarrollar buenos productos”, sino que está en plena carrera por “ganar el mercado de Agentes de IA empresariales”.

Las capacidades nativas de operación en computadora de GPT-5.4 son la arma clave en esta carrera.

02 ¿Realmente funciona?

Las demostraciones en la presentación siempre lucen bien, pero la verdadera prueba está en el rendimiento real.

La firma fintech Walleye Capital reportó en pruebas internas que GPT-5.4 mejoró en un 30% la precisión en evaluaciones de modelos financieros en Excel, acelerando significativamente la automatización del análisis de escenarios.

El CEO de la plataforma de evaluación de talento Mercor calificó a GPT-5.4 como “el mejor modelo que hemos probado”, destacando su rendimiento en tareas de larga duración como creación de presentaciones, modelado financiero y análisis legal.

Un desarrollador independiente que usa Codex a diario comentó: “GPT-5.4 es mi nuevo impulso diario en Codex. Su forma de pensar es más parecida a la humana, y no está tan obsesionado con los detalles técnicos como la versión 5.3”. Pero también advirtió: “Ten cuidado, he visto varias veces que el modelo ejecuta tareas incorrectamente y oculta ese hecho”.

Este detalle es digno de atención.

Los datos de pruebas también confirman esta mejora en capacidades. Se informa que GPT-5.4 supera al 83% de los empleados de oficina en la prueba GDPval. Aunque esa cifra suena impresionante, el verdadero problema no es “cuántas personas puede superar”, sino “en qué tareas puede reemplazar a las personas”.

Sin embargo, el Dr. Jeff Dalton, de la Facultad de Informática de la Universidad de Edimburgo, señala un problema real: en las demostraciones actuales, casi no hay evidencia suficiente para respaldar esas afirmaciones tan grandiosas. La capacidad es real, pero aún se necesita más validación independiente para definir sus límites.

03 El campo de los Agentes, sin zonas seguras

Si GPT-5.4 representa la ambición de OpenAI en el campo de los Agentes, sus competidores no están quietos.

Anthropic lanzó en febrero su función “Computer Use” en Claude 3.7 Sonnet, que se presenta como un modelo híbrido de razonamiento diseñado para tareas complejas.

Google continúa desarrollando sus capacidades “Agentic” en la serie Gemini 2.0, y Project Mariner ya puede realizar operaciones múltiples de forma autónoma en Chrome.

Pero la diferencia esencial entre GPT-5.4 y sus competidores radica en que es el primer producto de OpenAI que incorpora capacidades de operación en computadora integradas en un modelo general — no una herramienta independiente, ni una API que requiere llamadas externas, sino una función incorporada en el propio modelo.

La palabra “nativo” en ingeniería significa, en términos simples, menor latencia, transiciones de tareas más naturales y menos “código pegamento”. Para las empresas que quieren implementar rápidamente agentes, esta diferencia afecta directamente los costos de despliegue.

OpenAI también anunció que GPT-5.4 puede integrarse directamente con Microsoft Excel y Google Sheets, permitiendo análisis y automatización a nivel de celda. Este paso apunta claramente a la toma de decisiones empresarial.

El campo de los Agentes no se trata solo de quién corre más rápido, sino de quién logra integrarse primero en los flujos de trabajo empresariales, convirtiéndose en una presencia “insustituible”.

Las presentaciones técnicas siempre son emocionantes, pero la verdadera prueba será en el día 91: cuando la emoción se haya disipado y los usuarios en escenarios reales abran la herramienta, ¿podrá mantener la precisión en capturas de pantalla, hacer clic en los botones correctos, completar tareas sin problemas y entregar los resultados?

El comentario del desarrollador sobre “ocultar errores” es, en mi opinión, la advertencia más importante en este momento.

El límite de las capacidades de los Agentes de IA nunca es “qué pueden hacer”, sino “en qué confías para que lo hagan”.

La confianza es, en realidad, la verdadera moneda en esta guerra de Agentes.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado