Este es el contenido del episodio 19 del podcast oficial de OpenAI. El presentador Andrew Mayne y los investigadores Kenji Hata y la responsable de producto Adele Li tuvieron un diálogo profundo sobre GPT Image 2.0 (es decir, ImageGen 2.0). Este diálogo ocurrió aproximadamente dos semanas después del lanzamiento oficial del modelo, en un momento en que la cantidad de imágenes generadas semanalmente superaba los 1.5 mil millones, y varias tendencias de uso se estaban popularizando rápidamente en todo el mundo. Esto no fue solo una revisión del lanzamiento del producto, sino una discusión sincera sobre la transformación paradigmática en la tecnología de generación de imágenes.

De inversores a responsables de producto: una historia sobre el cambio de roles

Antes de unirse a OpenAI, Adele Li dedicó toda su carrera a la inversión. Trabajó en fondos de capital privado y en Redpoint Ventures, enfocándose en inversiones tempranas en IA y software. Cuando se incorporó a OpenAI, inicialmente estuvo a cargo de la planificación de infraestructura de datos y computación, muy alejada de la generación de imágenes. Sin embargo, en los últimos seis meses, gradualmente se orientó hacia el lado del producto, asumiendo la responsabilidad total del trabajo de producto de ImageGen.

Ella admite que la esencia del rol de gerente de producto es “hacer lo que necesita hacerse”, sin importar qué sea eso. Y el proyecto ImageGen le permitió movilizar varias habilidades: colaborar estrechamente con investigadores como Kenji, y pensar constantemente en qué vacíos del mercado existen y dónde están las ventanas de oportunidad.

“Este ya no es el mercado del lanzamiento de ImageGen 1.0 hace un año.” dice Adele. Hoy en día, en la pista de generación de imágenes hay varios competidores, y ChatGPT en sí mismo ya es un producto completamente diferente. En este contexto, pensar en el papel evolutivo de ImageGen dentro del ecosistema de ChatGPT es una de las cosas que ella encuentra más interesantes.

Kenji Hata también se unió a OpenAI hace aproximadamente dos años. Comenzó trabajando en un proyecto de audio, y luego, por casualidad, participó en las tareas previas al lanzamiento de ImageGen 1.0, para luego dedicarse a tiempo completo a la investigación en generación de imágenes, llegando hasta la versión 2.0.

Los datos hablan: en dos semanas, 1.5 mil millones de imágenes por semana

En las dos semanas posteriores al lanzamiento oficial de GPT Image 2.0, el uso de generación de imágenes en ChatGPT creció más del 50%, superando los 1.5 mil millones de imágenes generadas semanalmente. Al mismo tiempo, varias tendencias de uso se extendieron rápidamente en todo el mundo — desde análisis de color y estilos de pegatinas muy populares en Asia, hasta dibujos con crayones y estilos de graffiti en Estados Unidos, entre otros.

Adele considera que esta propagación viral en sí misma indica un problema: los usuarios percibieron casi instantáneamente la mejora en las capacidades del modelo. “La retroalimentación visual es la más directa.” dice ella, “los usuarios no necesitan leer informes técnicos, solo abren el modelo, generan una imagen, y rápidamente saben si está bien o mal.”

El presentador Andrew también expresó una sensación similar: la magnitud de esta mejora de capacidades fue tan grande que, en lugar de llamarla “2.0”, sería mejor considerarla un paradigma completamente nuevo. Entonces, ¿cómo ocurrió exactamente este cambio de paradigma?

Tres avances clave: texto, multilingüismo y realismo

Adele y Kenji atribuyen la mejora en las capacidades de ImageGen 2.0 a avances sincronizados en varios aspectos clave.

El primero es la capacidad de renderizado de texto. Los modelos de generación de imágenes tempranos tenían dificultades catastróficas para manejar texto en las imágenes — letras deformadas, palabras desordenadas, tipografías caóticas. Andrew bromea diciendo que, en los primeros tiempos, la palabra “OpenAI” generada por DALL-E parecía escrita por un chimpancé. Pero ahora, el modelo puede mostrar texto claro y preciso en las imágenes, incluso gráficos complejos.

Kenji cuantifica este progreso con una prueba interna: hacer que el modelo genere una cuadrícula con 100 objetos aleatorios y contar la precisión. Desde los 5 a 8 objetos en DALL-E 3, hasta unos 16 en ImageGen 1.0, estabilizándose en 25 a 36 en la versión 1.5, y ahora en casi 100 en la versión 2.0, con todos correctos. “No es un salto repentino, sino un crecimiento constante y estable.” dice Kenji.

El segundo es el soporte multilingüe. El equipo reforzó específicamente la comprensión y generación en múltiples idiomas durante el entrenamiento. Tras el lanzamiento, las respuestas positivas de usuarios en Asia y Europa confirmaron que esta dirección era correcta: los usuarios en diferentes entornos lingüísticos pueden obtener imágenes localizadas de alta calidad.

El tercero es el realismo fotográfico. Este fue uno de los puntos de dolor más reportados por los usuarios anteriormente: las imágenes de personajes generadas por modelos antiguos tenían un aspecto “sobre-embellecido, estilo portada de revista”, con proporciones faciales y corporales distorsionadas, y poca sensación de realismo. La versión 2.0 hizo mucho trabajo en este aspecto, con el objetivo de que las imágenes “se parezcan más a ti”. Kenji recuerda la primera vez que vio los resultados en un punto de control del nuevo modelo: comparando con los resultados de ImageGen 1.0, no hubo discusión: claramente, uno era mejor que el otro.

Describe una escena de una mujer mirando al mar. “Miramos esas dos imágenes, sin decir nada. Solo… OK, esta ganó.”

¿Cómo equilibrar velocidad y calidad? La clave está en la fase post-entrenamiento

Andrew planteó una pregunta que muchos tienen curiosidad por saber: el modelo se volvió más inteligente, pero la velocidad de generación no disminuyó. ¿Cómo lograron eso?

Kenji explica que cada versión acumuló mucho aprendizaje en ingeniería. Por ejemplo, mejoraron la eficiencia en tokens del modelo — usando menos tokens para generar imágenes de mayor calidad. Es un proceso de optimización continua en cada iteración, no solo un avance técnico aislado.

Adele añadió la importancia del post-entrenamiento. Ella dice que, al entrenar el modelo, el equipo no solo busca que entienda conocimientos del mundo — ciencia, conceptos, matemáticas en imágenes — sino que también responde a una pregunta más subjetiva: ¿qué es “bonito”? ¿Qué tiene “buen gusto”?

Estas preguntas no tienen respuestas estándar, pero determinan directamente el límite de calidad de la salida del modelo. Para ello, el equipo trabaja estrechamente con artistas, diseñadores y profesionales del marketing, intentando incorporar sus juicios estéticos y mejores prácticas en la interacción del modelo con los usuarios.

También monitorean de cerca los comentarios en redes sociales, integrando los problemas del mundo real en el ciclo de iteración. Kenji dice que estos comentarios se alivian o se corrigen en la siguiente versión.

Tendencias virales: usar IA para expresar “imperfección” y “yo” auténtico

Entre las tendencias de uso que surgieron tras el lanzamiento, una que sorprendió y resultó divertida para el equipo fue que los usuarios usaron este potente modelo para generar imágenes “crudas y torpes” al estilo de Microsoft Paint — degradando fotos de celebridades o imágenes populares en pixel art y garabatos.

Adele tiene una interpretación perspicaz: “Hacer que la IA genere algo ‘imperfecto’ requiere mucha inteligencia.” No es un fallo del modelo, sino una manifestación de que realmente entiende la intención del usuario.

Ella piensa que esto refleja una tendencia psicológica: la gente busca autenticidad, imperfección y nostalgia. Estilos de crayón, graffiti, pixel art retro — todos apuntan a un mismo tema: los usuarios quieren que la IA muestre una versión más auténtica, divertida, y menos perfecta de sí mismos, no solo una salida “perfecta”.

“Expresarse a través de la IA es una dirección que realmente nos emociona.” dice Adele, y esto encaja con la misión de OpenAI: permitir que más personas expresen ese “yo” que antes era imposible de mostrar.

De entretenimiento a productividad: educación, diseño y penetración en diferentes industrias

Otro cambio importante en ImageGen 2.0 es su transición de un escenario principalmente de entretenimiento a una herramienta de productividad real.

En educación, hay un canal de prueba interna dirigido a docentes, desde primaria hasta posgrado. Kenji comparte un caso impresionante: un profesor de biología ingresó contenido de un libro de texto avanzado y generó diagramas altamente precisos, con contenido correcto.

Adele considera que convertir conceptos complejos en contenidos visuales comprensibles es una de las mayores fortalezas del modelo. Menciona especialmente el “aprendizaje personalizado” — los docentes pueden usar ImageGen para crear materiales de estudio adaptados a diferentes idiomas y preferencias. Ella y su equipo están explorando cómo integrar más profundamente ImageGen en escenarios de aprendizaje con ChatGPT, para que la enseñanza de conceptos incluya automáticamente componentes visuales.

En el ámbito laboral, Adele comparte datos internos: en presentaciones internas de OpenAI, más del 50% de las diapositivas ya usan imágenes generadas por ImageGen. “La velocidad de adopción de la comunicación visual es mucho mayor de lo que pensábamos.”

También menciona diferentes profesiones que ya usan ImageGen: agentes inmobiliarios generando imágenes de propiedades y remodelaciones virtuales, creadores de YouTube diseñando portadas y materiales promocionales, artistas conectando con fans, escritores generando rápidamente imágenes para redes sociales…

Andrew también comparte su experiencia personal: le dio la portada de su libro al modelo, y en la primera generación obtuvo la proporción y estilo correctos para diferentes plataformas. “Es como magia.”

Capacidades emergentes: panorámicas de 360 grados, personajes fantasma y colaboración con Codex

Además de las mejoras esperadas, la versión 2.0 trajo capacidades emergentes que el equipo no anticipó completamente.

Una de ellas son las panorámicas de 360 grados. El equipo descubrió que, al soportar la generación en proporciones arbitrarias, los usuarios comenzaron a crear panorámicas ultraanchas e incluso imágenes de estilo 360 grados. Aprovecharon esto y lo convirtieron en una función del producto, permitiendo a los usuarios generar y explorar panorámicas inmersivas en la web y en móviles de ChatGPT. Andrew generó una versión de “perro jugando póker” en 360 grados desde su perspectiva.

Las imágenes de personajes (sprites) también se convirtieron en un uso popular inesperado. Desarrolladores de juegos y creadores independientes usan ImageGen para crear sprites de personajes en diferentes poses, y con la ayuda de Codex, pueden construir juegos sencillos desde cero con personajes personalizados. Andrew vio en acción cómo, diciendo “quiero un cuervo”, el sistema llamaba automáticamente a ImageGen para crear el sprite, y luego Codex lo integraba en el código del juego. “Eso es magia.”

La coherencia en múltiples imágenes también mejoró notablemente en 2.0. Kenji menciona que ya hay usuarios creando cómics de 10 páginas con personajes y estilos visuales coherentes en todas las imágenes. Antes, esto requería mucho trabajo manual, pero ahora es mucho más confiable y fluido.

El próximo paso: agentes creativos y asistentes visuales personalizados

Sobre el futuro, Adele presenta una visión clara: un Agente Creativo.

Describe un escenario en el que un asistente de IA que realmente entienda tu forma de trabajar, tus gustos y tus objetivos puede actuar como tu diseñador de interiores, arquitecto, planificador de bodas personal — todo reflejado en una sola imagen.

El núcleo de esta visión es la verdadera personalización en cada etapa de la generación de imágenes. Adele cita su ejemplo “me-me-me eval”: usa 100 fotos de ella, amigos y familiares para evaluar si el modelo puede insertar elementos personalizados en los escenarios correctos — por ejemplo, si ChatGPT recuerda que tiene un hermano, o qué le gusta a sus padres, ¿el modelo puede integrar esa información de forma natural en las imágenes de cumpleaños?

Kenji, desde la investigación, añade que el equipo sigue optimizando la coherencia en múltiples imágenes, la experiencia en la capa de creación visual, y facilitando que los usuarios obtengan rápidamente lo que desean. “Aún no es perfecto, pero sabemos hacia dónde vamos.”

Sobre las técnicas de prompts, ambos ofrecen consejos. Adele recomienda probar el “modo de pensamiento de ImageGen” — en modo Pro o de reflexión, ImageGen puede buscar en línea, analizar archivos y usar herramientas, mejorando la calidad y composición. Sugiere usar prompts abiertos en este modo, para que el modelo explore y razone, con un estilo estético definido como referencia. Kenji prefiere un estilo más minimalista, diciendo “manténlo limpio y simple.”

Si DALL-E fue la era de piedra de la generación de imágenes, ImageGen 2.0 es su renacimiento — no solo un avance artístico, sino una fusión de ciencia, arte, arquitectura, conocimiento y estética. Para cerrar, Adele concluye con una frase que quizás sea la mejor forma de entender este modelo: ya no es solo una “herramienta de dibujo”, sino un agente visual que empieza a comprender el mundo, a las personas y a la belleza.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
1.79M Popularidad
#
CLARITYActPassesSenateCommittee
3.49M Popularidad
#
IsraelStrikesIranBTCPlunges
46.79K Popularidad
#
#DailyPolymarketHotspot
362.91K Popularidad
#
BitcoinVShapedReversalBack
178.98M Popularidad

Fijado

Desde la Edad de Piedra hasta el Renacimiento: Los avances tecnológicos y reflexiones de producto detrás de OpenAI Imagen Generación 2.0

Temas de actualidad

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Fijado