OpenAI cofundador en exclusiva: ¿Cuál es el próximo paso de ChatGPT después de cerrar Sora?

Título del video: Presidente de OpenAI Greg Brockman: estrategia de IA, AGI y la superapp

Autor del video: Alex Kantrowitz

Compilación: Peggy, BlockBeats

Nota del editor: Este artículo es una compilación del diálogo del presidente y cofundador de OpenAI, Greg Brockman, en el Big Technology Podcast. El programa lleva mucho tiempo prestando atención a los cambios en la IA, la industria tecnológica y la estructura empresarial; es una ventana importante para observar, de primera mano en el mundo de Silicon Valley, los juicios de primera línea.

En esta conversación, Brockman no se quedó en las capacidades del modelo en sí, sino que llevó la pregunta un paso más allá: cuando las capacidades de la IA ya han sido básicamente verificadas, ¿cómo elegirá la industria su camino, cómo reconfigurará las formas del producto y cómo asumirá el impacto sistémico que eso trae? El diálogo gira en torno a la estrategia de producto de OpenAI, la «superapp» que está por lanzarse y su juicio sobre la entrada de la IA en la «fase de despegue».

Esta conversación puede entenderse desde tres aspectos.

Primero, la convergencia del camino.
Desde la generación de video hasta los modelos de razonamiento, de avanzar en múltiples líneas a elegir con iniciativa, las decisiones de OpenAI no son simplemente juicios de superioridad técnica, sino una respuesta a limitaciones reales: el cómputo se ha convertido en el principal cuello de botella. En un escenario de recursos limitados, las rutas tecnológicas empiezan a converger hacia dos direcciones con mayor efecto palanca: asistentes personales y la resolución de problemas complejos. Esto también significa que la lógica competitiva de la IA está pasando de «qué se puede hacer» a «qué se debe hacer primero».

Segundo, la reconstrucción de la forma.
El planteamiento de la «superapp» es, en esencia, un salto en la forma del producto. La IA ya no es una simple colección de herramientas dispersas, sino una única puerta de entrada unificada: entiende el contexto, llama herramientas, ejecuta tareas y, en diferentes escenarios, acumula memoria de manera continua. De ChatGPT a Codex, la IA está tomando gradualmente el control del flujo de trabajo completo, y el papel humano también pasa de ejecutor a coordinador: definir objetivos, asignar tareas y supervisar.

Tercero, el giro del ritmo.
Si los últimos dos años fueron una fase de ascenso de capacidades, entonces lo que está ocurriendo ahora es el «despegue». Por un lado, las capacidades del modelo saltan de «ayudar a aproximadamente el 20% del trabajo» a «cubrir alrededor del 80% de las tareas», lo que desencadena directamente una reconfiguración de los flujos de trabajo; por otro lado, la IA también participa en su propia evolución (usar IA para optimizar IA), y junto con la coordinación entre chips, aplicaciones y el lado empresarial se forma un bucle de aceleración continua. La IA ya no es una técnica aislada, sino que empieza a convertirse en un motor clave que impulsa el crecimiento económico.

Pero al mismo tiempo, también están saliendo simultáneamente otro conjunto de preguntas: la desconfianza del público, la incertidumbre del empleo, la controversia que traen los centros de datos y los límites entre seguridad y gobernanza. A esto, Brockman no da respuestas que estén completamente dentro de la tecnología. Más bien enfatiza dos puntos: primero, el riesgo no se puede resolver mediante «control centralizado»; se necesita construir, alrededor de la IA, una infraestructura social de tipo sistema eléctrico. Segundo, las capacidades individuales están cambiando: lo realmente importante ya no es «si sabes usar herramientas», sino «si puedes alcanzar tus objetivos con ayuda de la IA».

Si antes la pregunta era «qué puede hacer la IA», ahora la pregunta se ha vuelto: cuando la IA empiece a completarte la mayor parte de las cosas, ¿qué más necesitarás hacer tú?

A continuación, el contenido del original (para facilitar la comprensión lectora, el contenido original ha sido reelaborado parcialmente):

TL;DR

La AGI ya ha entrado en la fase de «camino claro»: Greg Brockman (cofundador de OpenAI) cree que los modelos de razonamiento basados en GPT ya tienen una ruta definida hacia la AGI; se espera que se logre en cuestión de varios años, aunque la forma seguirá siendo «no uniforme» (jagged).

Nota: AGI (Artificial General Intelligence, inteligencia artificial general) se refiere a la inteligencia artificial general: sistemas de IA que poseen capacidades comparables e incluso superiores a las humanas en la gran mayoría de tareas cognitivas. A diferencia de la IA «especializada» actual (como reconocimiento de imágenes, algoritmos de recomendación), la AGI enfatiza la generalidad entre tareas y la capacidad de transferencia.

Convergencia estratégica: de múltiples líneas de exploración a dos aplicaciones núcleo: Bajo la restricción del cómputo, OpenAI concentrará recursos en «asistentes personales» y «resolución de problemas complejos», en lugar de impulsar simultáneamente todas las direcciones (como generación de video).

La «superapp» se convertirá en la forma de entrada de la IA: la mensajería, la programación, el navegador y el trabajo del conocimiento se integrarán en un único sistema; la IA pasará de ser una herramienta a convertirse en una «capa de ejecución», y los usuarios pasarán a ser «coordinadores».

Giro clave: la IA empieza a hacerse cargo de los flujos de trabajo, no solo a ayudar: La capacidad del modelo pasó de «completar el 20% de las tareas» a «poder asumir el 80%», obligando a personas y empresas a reconfigurar su manera de trabajar.

El cómputo se vuelve el cuello de botella central y el foco de la competencia: La demanda de IA supera la oferta; en el futuro, la limitación no estará en la capacidad de los modelos, sino en los recursos de cómputo, y los centros de datos y la infraestructura se vuelven variables clave.

Está ocurriendo el «despegue» de la IA (takeoff): La aceleración autoimpulsada de la tecnología (usar IA para optimizar IA) se combina con la coordinación de la industria (chips, aplicaciones, empresas), empujando a la IA a pasar de herramienta a motor de crecimiento económico.

El mayor riesgo no está en la tecnología, sino en la gobernanza y la forma de uso: Los problemas de seguridad no se pueden resolver mediante un solo actor; se necesita una ecología abierta y una infraestructura social para sostenerlo conjuntamente.

La capacidad central de los individuos está cambiando: En el futuro, la competitividad no estará en «ejecutar», sino en «definir objetivos + gestionar sistemas de IA»; el uso proactivo de IA se convertirá en una capacidad base.

Organización del diálogo:

Alex (presentador):
Hoy contamos con Greg Brockman, cofundador y presidente de OpenAI, para hablar sobre las oportunidades con mayor potencial en IA, cómo OpenAI aprovechará esas oportunidades y la idea de la «superapp». Greg también se encuentra hoy en nuestro estudio de grabación.

Greg Brockman (cofundador y presidente de OpenAI):
Me alegra verte. Gracias por la invitación.

Por qué cerrar Sora: no hay cómputo suficiente

Alex:
Este momento es muy interesante: OpenAI está pausando el impulso de la generación de video y está concentrando los recursos en una «superapp»; esta integrará escenarios comerciales y de programación. Desde fuera (incluyéndome), da la impresión de que OpenAI ya ha tomado la delantera en el lado del consumo, y aun así ahora está ajustando la asignación de recursos. ¿Qué está pasando exactamente?

Nota: En marzo de 2026, OpenAI anunció el cierre de su producto de generación de video Sora (incluyendo la aplicación y la API) y detuvo el avance comercial relacionado.

Greg Brockman:
En el último tiempo, hemos estado desarrollando esta tecnología de aprendizaje profundo para verificar si realmente puede producir el tipo de impacto positivo que siempre imaginamos: si puede usarse para construir aplicaciones que verdaderamente ayuden a las personas y mejoren sus vidas.

Mientras tanto, también estamos trabajando en otra línea: desplegar esta tecnología hacia afuera. Por un lado, para respaldar el funcionamiento del negocio; por otro lado, para acumular experiencia real en el mundo de antemano, de cara al momento en que la tecnología realmente madure.

Y ahora, ya hemos llegado a una nueva etapa. Vemos que esta tecnología efectivamente es viable. Estamos pasando de «pruebas de referencia» y algunas demostraciones de capacidades algo abstractas a una etapa nueva: tenemos que ponerla en el mundo real, hacer que participe en un trabajo real, evolucionar con base en la retroalimentación de los usuarios.

Así que yo prefiero interpretar este cambio como: es un giro estratégico impulsado por el cambio de fase tecnológica.

Esto no significa que estemos pasando de «lado del consumo» a «lado empresarial». Más bien, estamos planteando una pregunta: en un escenario de recursos limitados, ¿qué aplicaciones deberíamos priorizar primero? Porque no podemos hacerlo todo.

¿Qué aplicaciones realmente pueden materializarse, generar sinergias entre sí y traer un impacto real? Si enumeras todas las direcciones, en el lado del consumo se puede desglosar en muchas opciones: por ejemplo, un asistente personal, un sistema que realmente te entienda, esté alineado con tus objetivos y te ayude a alcanzar metas de vida; o, por ejemplo, creación y entretenimiento; y también muchas otras posibilidades. Y en el lado empresarial, si lo miras desde un nivel superior, en realidad se puede abstraer como una sola cosa: tienes una tarea compleja; ¿puede la IA ayudarte a completarla?

Para nosotros, ahora mismo las prioridades están muy claras; solo hay dos cosas en el primer lugar: primero, el asistente personal; segundo, una IA que pueda ayudarte a resolver problemas complejos.

El problema es que nuestro cómputo actual ni siquiera alcanza para cubrir estas dos cosas. Si además agregamos más escenarios de aplicaciones, sería imposible cubrirlo todo. Así que, en esencia, es una decisión realista: la tecnología está madurando rápido, el impacto está a punto de explotar, y debemos hacer concesiones, elegir las direcciones más importantes para poder hacerlas de verdad.

Alex:
Tú mencionaste antes un tipo de analogía: que OpenAI es un poco como Disney—tiene una capacidad núcleo y luego puede extenderse a distintos escenarios. Disney tiene Mickey Mouse, con el que puede hacer películas, parques temáticos, Disney+. El «núcleo» de OpenAI es el modelo, con el que puede hacer generación de video, hacer asistentes, hacer aplicaciones para empresas.

Pero ahora parece que ustedes ya no seguirán ese camino de «extensión integral» y que tienen que elegir.

Greg Brockman:
En realidad, yo diría que el paralelismo incluso ahora encaja mejor. Pero hay un punto clave: desde el ángulo técnico, Sora (el modelo de video) y GPT (el modelo de razonamiento) pertenecen a ramas tecnológicas distintas. La manera de construirlos es completamente diferente.

El problema es que en esta etapa, es muy difícil impulsar al mismo tiempo estos dos árboles tecnológicos, especialmente con recursos limitados. Por eso nuestra elección es concentrar los recursos principales en la ruta de GPT en esta etapa.

Por supuesto, esto no significa que abandonemos otras direcciones. Por ejemplo, en el campo de los robots, seguimos realizando investigaciones relacionadas. Pero los robots en sí están todavía en una fase más temprana; aún no han entrado en el período de madurez real de explosión.

En contraste, en el próximo año veremos un despegue real de la IA en el trabajo del conocimiento.

Y además hay que enfatizar que la ruta de GPT no es solo «texto». Por ejemplo, la interacción de voz bidireccional (speech-to-speech) también forma parte de esta ruta tecnológica; hará que la IA sea más usable y práctica. Estas capacidades, en esencia, siguen dentro del mismo sistema de modelos, solo que ajustadas de distintas maneras.

Pero si te vas por dos ramas tecnológicas totalmente distintas, con el cómputo limitado es muy difícil sostenerlo a largo plazo. Y el motivo por el que el cómputo está limitado es porque—la demanda es demasiado grande. Después de casi cada lanzamiento de un modelo, la gente quiere usarlo para hacer muchas más cosas.

Alex:
Entonces, ¿por qué no pusieron el foco en la ruta de «modelos del mundo»? Por ejemplo, los modelos de video: necesitan entender las relaciones entre objetos, algo crucial también para los robots. Y además el avance de Sora ha sido muy rápido. ¿Por qué finalmente elegisteis apostar por GPT?

Nota: «Modelos del mundo» (World Model) se enfocan en la percepción y la intuición física; su núcleo es hacer que la IA entienda «cómo funciona el mundo», en lugar de solo aprender «patrones superficiales de los datos». Estos modelos suelen usarse para describir sistemas como Sora: no solo generan imágenes o videos, sino que modelan las relaciones entre objetos (como personas, autos, luz), la evolución continua del tiempo (la progresión entre fotogramas) y leyes físicas fundamentales (como movimiento, oclusión y colisiones). En comparación, GPT pertenece a los modelos de lenguaje y razonamiento, y se centra más en la cognición abstracta y en la capacidad de ejecutar tareas.

Greg Brockman:
El problema más grande en ese campo, en realidad, es que hay demasiadas oportunidades.

Nos dimos cuenta muy temprano de que, en OpenAI, si una idea es razonable desde el punto de vista matemático, normalmente puede ejecutarse y obtener resultados buenos. Eso indica que las capacidades subyacentes del aprendizaje profundo son muy fuertes: pueden abstraer reglas generativas desde los datos y transferirse a escenarios nuevos. Esto puedes aplicarlo a diversas áreas, como modelos del mundo, descubrimiento científico, programación, etc.

Pero la clave es que necesitamos elegir.

Durante mucho tiempo ha habido un debate: hasta dónde puede llegar un modelo de texto. ¿Puede realmente entender el mundo? Yo creo que hoy ya tenemos una respuesta: los modelos de texto pueden llegar a la AGI.

Ya hemos visto una ruta clara; este año habrá modelos más potentes. Y dentro de OpenAI, una de nuestras mayores dificultades es cómo asignar el cómputo; este problema solo se intensificará, no se aliviará. Así que en esencia, no es un problema de «qué ruta es más importante», sino de oportunidad y orden.

Ahora, algunas aplicaciones que antes pensábamos lejanas ya se vuelven alcanzables. Por ejemplo, resolver problemas físicos que aún no se han resuelto. Recientemente tenemos un caso: un físico llevaba mucho tiempo investigando un problema; le entregó el problema al modelo y, después de 12 horas, obtuvimos una solución. Él dijo que era la primera vez que sentía que un modelo estaba «pensando». Incluso podría ser un problema que los humanos quizá nunca puedan resolver, pero la IA lo logró.

Cuando ves algo así, tu única elección es: apostar más fuerte, duplicar y triplicar. Porque eso significa que realmente podemos liberar un gran potencial.

Así que, para mí, no se trata de una competencia entre direcciones diferentes; más bien, cuál es la misión de OpenAI: cómo llevar la AGI al mundo; cómo hacer que realmente beneficie a todos; y, sobre todo, que ya hemos visto esa ruta y sabemos cómo avanzar.

Apostar por GPT, no por modelos del mundo: elección del camino hacia la AGI

Alex:
Bien, yo quisiera volver a la siguiente generación de modelos que mencionaste, pero antes quiero profundizar en este punto.

Hace un tiempo hablé con Demis Hassabis de Google DeepMind. Lo que me pareció interesante es que él dijo que lo más cercano a la AGI, para él, es su generador de imágenes llamado Nano Banana.

Nota: Demis Hassabis es una de las figuras clave que impulsa la IA desde la investigación hacia aplicaciones realmente rompedoras. Fundó DeepMind, que en 2016 derrotó al campeón mundial de Go con AlphaGo, convirtiéndose en un acontecimiento emblemático en la historia del desarrollo de la IA.

Su razonamiento es: tanto los generadores de imágenes como los de video—para generar imágenes y videos de ese tipo—en esencia deben entender las relaciones de interacción entre objetos, al menos tener cierto nivel de comprensión de cómo funciona el mundo.

Entonces, ¿no implica esto un riesgo potencial? Es una gran apuesta: si esto fuera realmente así, al seguir invirtiendo más en otra rama tecnológica, ¿OpenAI se perdería de algo?

Greg Brockman:
Si fuera así, ¿qué? Tengo dos respuestas.

Primero, claro que existe esa posibilidad. Este campo funciona así: al final, siempre tienes que elegir y apostar. OpenAI ya lo ha hecho desde el principio: debemos decidir qué ruta hacia la AGI creemos que es correcta y luego enfocarnos intensamente y avanzar a lo largo de ese camino. Es como sumar vectores aleatorios: el resultado final puede acercarse a cero; pero si alineas todos los vectores, entonces te impulsan hacia una dirección clara.

Segundo: la generación de imágenes también es una capacidad muy popular dentro de ChatGPT, y seguimos invirtiendo y priorizándola de manera continua. Podemos hacer eso porque, en realidad, no pertenece a esa rama tecnológica de «modelos del mundo» o «modelos de difusión». En realidad, se construye sobre la arquitectura de GPT. Entonces, aunque enfrente distribuciones de datos diferentes, en el nivel más profundo del stack tecnológico, en esencia sigue siendo la misma base.

Y esto es precisamente una de las cosas más sorprendentes de la AGI: a veces aplicaciones que parecen totalmente distintas—voz a voz, generación de imágenes, procesamiento de texto y, además, el uso del texto en diferentes escenarios como investigación científica, programación o información de salud personal—pueden caber dentro del mismo marco técnico.

Así que, desde el punto de vista técnico, una cosa en la que yo y la empresa hemos estado pensando es cómo unificar nuestros esfuerzos en la mayor medida posible. Porque de verdad creemos que esta tecnología traerá una mejora integral, e incluso elevará el sistema económico completo.

Pero el alcance es enorme. Por supuesto que no podemos hacer todo. Pero sí podemos hacer la parte que nos corresponde.

Alex:
Ahí está el significado de «general» en la Artificial General Intelligence (AGI).

Greg Brockman:
Sí, exactamente. Esa «G» realmente quiere decir eso.

Alex:
Hablando de «unificación», entonces, ¿cómo sería exactamente esa superapp?

Greg Brockman:
La superapp, según mi forma de entenderla—

Alex:
Integraría el chat, la programación, el navegador y cosas como ChatGPT, ¿correcto?

Greg Brockman:
Sí. Lo que queremos construir es una aplicación para usuarios finales para que experimenten de verdad la fuerza de la AGI—su «generalidad».

Si lo piensas en los productos de hoy de chat, creo que evolucionará gradualmente hasta convertirse en tu asistente personal, tu API personal: una IA verdaderamente orientada a ti. Te entiende, sabe mucho sobre ti, está alineada con tus objetivos, es confiable y puede, en cierto sentido, «representarte» en ese mundo digital.

En cuanto a Codex, puedes entenderlo así: ahora todavía es una herramienta diseñada principalmente para ingenieros de software, pero se está convirtiendo en un «Codex para todos».

Cualquiera que quiera crear o construir cosas puede usar Codex para que el computador haga lo que quiere hacer. Y además ya no se trata solo de «escribir software»; se parece más a «usar el computador» como tal. Por ejemplo, puedo pedirle que me ayude a configurar los ajustes de mi laptop. A veces olvido cómo configurar las esquinas activas (hot corners) y simplemente le digo a Codex que lo haga, y realmente lo hace.

Este es el tipo de computadora que debería ser. Debería adaptarse a las personas, y no hacer que yo me adapte a ella.

Así que puedes imaginar una aplicación así: todo lo que quieras que el computador haga, se lo puedes decir directamente. Aquí vendrán incluidas capacidades de «uso del computador» y «operación del navegador»; así la IA podrá operar la web de verdad, y además tú también podrás supervisar lo que está haciendo. Y, no importa si tu interacción es chat, escribir código o trabajo general del conocimiento, todas estas conversaciones se unificarán dentro de un mismo sistema. La IA tendrá memoria, te entenderá.

Eso es lo que estamos construyendo.

Pero para ser sinceros, esto es solo la parte visible del iceberg. Para mí, lo verdaderamente importante es la unificación a nivel de tecnología base.

Ya mencionamos la unificación a nivel de modelos subyacentes. Pero el cambio real de los últimos años no ha sido solo el «modelo» en sí. Lo más importante ahora es la «plataforma del sistema» que lo sustenta. Es decir: cómo el modelo obtiene contexto; cómo se conecta con el mundo real; qué acciones puede tomar. Y cuando entra nuevo contexto continuamente, ¿cómo funciona el bucle de interacción con el usuario?

En el pasado, dentro de la empresa teníamos múltiples implementaciones para estas cosas, o al menos algunas ligeramente diferentes. Ahora estamos unificándolas en un conjunto. Finalmente, tendremos una capa de IA unificada y, de manera muy ligera, la orientaremos a diferentes escenarios de aplicaciones específicas.

Por supuesto, todavía puedes crear un plugin pequeño, una interfaz pequeña, dedicada a servir a finanzas o a servir a leyes. Pero en la mayoría de los casos ni siquiera lo necesitarás, porque la superapp en sí será

ALEX-6,62%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado