Du Paléolithique à la Renaissance : Les avancées technologiques et la réflexion produit derrière OpenAI Image Generation 2.0

Rédaction : Techub News compilé

Il s’agit du contenu du 19e épisode du podcast officiel d’OpenAI. L’animateur Andrew Mayne, avec le chercheur Kenji Hata et la responsable produit Adele Li, ont mené une discussion approfondie sur GPT Image 2.0 (également appelé ImageGen 2.0). Cette conversation a eu lieu environ deux semaines après le lancement officiel du modèle — à cette époque, le nombre d’images générées par semaine avait dépassé 1,5 milliard, et plusieurs tendances d’utilisation étaient rapidement devenues populaires dans le monde entier. Ce n’est pas seulement un retour sur le lancement du produit, mais aussi une discussion sincère sur la transformation paradigmatique de la technologie de génération d’images.

Du investisseur au responsable produit : une histoire de changement de rôle

Adele Li, avant de rejoindre OpenAI, a consacré toute sa carrière à l’investissement. Elle a travaillé dans des fonds de capital-investissement et chez Redpoint Ventures, en se concentrant sur les investissements précoces dans l’IA et les logiciels. Lorsqu’elle a rejoint OpenAI, elle était initialement responsable de la planification de la construction des infrastructures de données et de calcul, ce qui était très éloigné de la génération d’images. Cependant, au cours des six derniers mois, elle s’est progressivement tournée vers le produit, prenant en charge l’ensemble du travail sur ImageGen.

Elle admet que l’essence du rôle de chef de produit est “faire ce qui doit être fait”, peu importe la tâche. Et le projet ImageGen lui a permis de mobiliser diverses compétences — collaborer étroitement avec des chercheurs comme Kenji, tout en réfléchissant constamment à où se trouvent les lacunes du marché et quelles sont les fenêtres d’opportunité.

“Ce n’est plus le même marché qu’il y avait un an lors du lancement de ImageGen 1.0.” dit Adele. Aujourd’hui, plusieurs concurrents occupent le secteur de la génération d’images, et ChatGPT lui-même est déjà un produit complètement différent. Dans ce contexte, réfléchir à l’évolution de ImageGen dans l’écosystème ChatGPT est l’une des choses qu’elle trouve le plus intéressante.

Kenji Hata a également rejoint OpenAI il y a environ deux ans. Au début, il travaillait sur un projet audio, puis, par hasard, il a participé aux préparatifs du lancement de ImageGen 1.0, avant de se consacrer entièrement à la recherche en génération d’images, jusqu’à la version 2.0.

Les données parlent d’elles-mêmes : deux semaines après le lancement, 1,5 milliard d’images par semaine

Au cours des deux premières semaines suivant le lancement officiel de GPT Image 2.0, l’utilisation de la génération d’images sur ChatGPT a augmenté de plus de 50 %, avec un volume hebdomadaire dépassant 1,5 milliard d’images. Parallèlement, diverses tendances d’utilisation se sont rapidement répandues dans le monde — allant de l’analyse de couleurs et des autocollants populaires chez les utilisateurs asiatiques, aux dessins à la craie et aux styles de graffiti très appréciés aux États-Unis.

Adele pense que cette propagation virale indique en fait une chose : les utilisateurs ont presque instantanément perçu la montée en puissance des capacités du modèle. “La rétroaction visuelle est la plus directe.” dit-elle. Les utilisateurs n’ont pas besoin de lire un rapport technique, ils ouvrent simplement le modèle, génèrent une image, et voient immédiatement si elle est bonne ou non.

L’animateur Andrew partage également ce sentiment — l’ampleur de cette amélioration des capacités lui donne l’impression que, plutôt que de l’appeler “2.0”, il faudrait parler d’un tout nouveau paradigme. Alors, comment ce changement de paradigme s’est-il réellement produit ?

Trois percées clés : texte, multilinguisme et réalisme

Adele et Kenji attribuent l’essor de ImageGen 2.0 à plusieurs avancées synchronisées dans différents domaines clés.

La première est la capacité de rendu de texte. Les premiers modèles de génération d’images étaient presque catastrophiques pour le traitement du texte dans l’image — déformation des lettres, mots désordonnés, mise en page chaotique. Andrew plaisante en disant que, dans les premières versions de DALL-E, le mot “OpenAI” ressemblait à une écriture de chimpanzé. Aujourd’hui, le modèle peut afficher clairement et précisément de longs passages de texte dans une image, voire des graphiques complexes.

Kenji illustre cette avancée par un test interne : faire générer une image comportant une grille de 100 objets aléatoires, puis compter le taux de réussite. Le nombre corrects est passé de 5 à 8 avec DALL-E 3, à environ 16 avec ImageGen 1.0, puis stabilisé entre 25 et 36 dans la version 1.5, et maintenant, avec la version 2.0, il peut atteindre près de 100 objets tous corrects. “Ce n’est pas une progression soudaine, mais une croissance continue et stable.” dit-il.

La deuxième avancée est le support multilingue. L’équipe a renforcé spécifiquement la compréhension et la génération dans plusieurs langues lors de l’entraînement. Après le lancement, les retours actifs des utilisateurs en Asie et en Europe ont confirmé cette orientation — les utilisateurs dans différents environnements linguistiques peuvent obtenir des images localisées de haute qualité.

La troisième est le réalisme photographique. C’était l’une des principales critiques des utilisateurs auparavant : les images de personnages générées par les anciens modèles avaient souvent une “esthétique trop polie de couverture de magazine”, avec des proportions du visage et du corps déformées, manquant de réalisme. La version 2.0 a beaucoup travaillé dans ce domaine, avec pour objectif de faire en sorte que les images “ressemblent davantage à vous”. Kenji se souvient de sa première impression en voyant la sortie d’un point de contrôle du nouveau modèle : en la comparant à celle de ImageGen 1.0, il n’y avait pas de discussion — la différence était évidente.

Il décrit une image d’une femme regardant la mer : “Nous regardons ces deux images, sans rien dire. Juste… OK, celle-là est meilleure.”

Comment concilier vitesse et qualité ? La clé réside dans la phase post-entraînement

Andrew pose une question qui intrigue beaucoup : le modèle est devenu plus intelligent, mais la vitesse de génération n’a pas ralenti. Comment ont-ils fait ?

Kenji explique que chaque version a accumulé beaucoup d’apprentissages techniques. Par exemple, ils ont beaucoup travaillé pour améliorer l’“efficacité des tokens” du modèle — produire des images de meilleure qualité avec moins de tokens. C’est un processus d’optimisation continue à chaque itération, et non une seule avancée technologique.

Adele ajoute l’importance de la phase post-entraînement. Elle explique qu’en entraînant le modèle, l’équipe ne se contente pas de lui faire comprendre le monde — la science, les concepts, la façon dont les mathématiques se traduisent en images — mais répond aussi à une question plus subjective : qu’est-ce qui est “beau” ? Qu’est-ce qui a du “goût” ?

Ces questions n’ont pas de réponses standard, mais elles déterminent directement la limite de qualité de sortie du modèle. Pour cela, l’équipe collabore étroitement avec de nombreux artistes, designers et marketeurs, afin de distiller leur jugement esthétique et leurs meilleures pratiques dans la façon dont le modèle interagit avec l’utilisateur.

Ils surveillent également de près les retours sur les réseaux sociaux, intégrant les problèmes du monde réel dans leur cycle d’itération. Kenji explique que ces retours sont soit atténués, soit complètement corrigés dans la version suivante.

Les tendances virales derrière : utiliser l’IA pour exprimer “l’imperfection” de soi

Parmi les tendances d’utilisation qui ont émergé après le lancement, une a surpris l’équipe : des utilisateurs exploitant cette capacité puissante pour générer des images “brutes” et “mal faites” dans un style “Microsoft Paint” — dégradant des photos de célébrités ou des images populaires en graffitis pixelisés.

Adele offre une lecture perspicace : “Pour que l’IA génère quelque chose d’imparfait, il faut en fait une grande intelligence.” Ce n’est pas une erreur du modèle, mais une véritable manifestation de sa compréhension de l’intention de l’utilisateur.

Elle pense que cela reflète une tendance psychologique chez les consommateurs : ils recherchent une sensation d’authenticité, d’imperfection et de nostalgie. Le style crayon, le graffiti, le pixel rétro — tous ces mots-clés à la mode pointent vers un même thème : les utilisateurs veulent que l’IA leur montre une version plus authentique, plus amusante d’eux-mêmes, plutôt que de simplement rechercher une “sortie parfaite”.

“Exprimer soi-même avec l’IA, c’est vraiment la direction qui nous excite.” dit Adele. Cela s’aligne aussi fortement avec la mission d’OpenAI — permettre à plus de gens d’exprimer ce “moi” qui, auparavant, ne pouvait pas l’être.

De l’amusement à la productivité : éducation, design et infiltration dans différents secteurs

Une autre transformation importante de ImageGen 2.0 est son passage d’un usage principalement ludique à un véritable outil de productivité.

Dans l’éducation, l’équipe dispose d’un canal de test interne dédié aux enseignants, couvrant tous les niveaux, de l’école primaire aux étudiants en master. Kenji partage un exemple marquant : une professeure de biologie a utilisé le modèle pour générer des diagrammes précis à partir de contenus de manuels avancés, avec une exactitude totale.

Adele pense que transformer des concepts complexes en contenus visuels compréhensibles est l’une des capacités les plus puissantes du modèle. Elle mentionne particulièrement le “apprentissage personnalisé” — les enseignants peuvent utiliser ImageGen pour créer du matériel pédagogique adapté aux étudiants de différentes langues et préférences. C’est une direction qu’elle et son équipe explorent activement : comment intégrer plus profondément ImageGen dans les scénarios d’apprentissage de ChatGPT, pour que l’enseignement des concepts soit naturellement accompagné d’une représentation visuelle.

Dans le contexte professionnel, Adele révèle une donnée interne intéressante : plus de 50 % des présentations internes d’OpenAI utilisent déjà des images générées par ImageGen. “La pénétration de la communication visuelle va beaucoup plus vite que prévu.”

Elle cite aussi plusieurs professions qui utilisent déjà ImageGen : agents immobiliers pour créer des images de propriétés et des rendus virtuels, créateurs YouTube pour les couvertures et les éléments promotionnels, artistes pour se connecter avec leurs fans, écrivains pour générer rapidement des images pour les réseaux sociaux…

Andrew, l’animateur, partage aussi sa propre expérience : il a confié la couverture de son livre au modèle, qui a généré une image adaptée aux différentes tailles de promotion sur les réseaux sociaux, dès la première tentative, avec le bon style et la bonne proportion. “C’est comme de la magie.”

Capacités émergentes : panoramas à 360°, sprites et synergie avec Codex

Outre les améliorations attendues, la version 2.0 a aussi révélé des “capacités émergentes” que l’équipe n’avait pas entièrement anticipées.

Les panoramas à 360° en font partie. L’équipe a découvert que, lors de la génération d’images avec des rapports largeur/hauteur arbitraires, les utilisateurs ont commencé à créer spontanément des panoramas ultra-larges, voire des images à 360° immersives. Ils ont intégré cette capacité en tant que fonctionnalité produit, permettant aux utilisateurs de générer et de visualiser directement des panoramas à 360° sur le web et sur mobile. Andrew a rapidement utilisé cette fonction pour créer une version à 360° d’une scène “chien jouant au poker”, en étant à la place du chien, regardant autour.

Les sprites (spritesheets) sont aussi devenus un usage viral inattendu. Des développeurs de jeux et des créateurs indépendants utilisent ImageGen pour générer des sprites multi-poses de personnages, et combinent cela avec la capacité de Codex à générer du code, pour construire des petits jeux avec des personnages personnalisés. Andrew décrit avoir vu cela de ses propres yeux : demander à Codex “Je veux un corbeau”, puis laisser le système appeler automatiquement ImageGen pour créer le sprite, et intégrer le tout dans le code du jeu. “C’est magique.”

La cohérence entre plusieurs images est aussi une avancée notable de la version 2.0. Kenji mentionne que certains utilisateurs tentent de créer une bande dessinée de 10 pages avec des personnages et un style cohérents. Cette capacité, qui nécessitait auparavant beaucoup de manipulation manuelle, devient désormais plus fiable et fluide.

Prochaines étapes : agents créatifs et assistants visuels personnalisés

En évoquant l’avenir, Adele partage une vision claire : celle des agents créatifs (Creative Agents).

Elle imagine un assistant IA capable de comprendre véritablement votre façon de travailler, vos préférences esthétiques et vos objectifs, pouvant jouer le rôle de votre designer d’intérieur personnel, architecte privé ou organisateur de mariage — tout cela représenté dans une seule image.

L’idée centrale est d’intégrer la “personnalisation” à chaque étape de la génération d’images. Adele cite son propre exemple “me-me-me eval” : elle utilise 100 photos d’elle, de ses amis et de sa famille comme jeu de données pour tester si le modèle peut insérer naturellement des éléments personnalisés dans une scène — par exemple, si ChatGPT se souvient qu’elle a un frère, que ses parents aiment faire telle ou telle chose, le modèle peut-il intégrer ces informations dans une image de fête d’anniversaire ?

Kenji, du côté recherche, ajoute que l’équipe continue d’optimiser la cohérence entre plusieurs images, l’expérience globale de création visuelle, et la facilité avec laquelle les utilisateurs peuvent obtenir le résultat souhaité. “Ce n’est pas encore parfait aujourd’hui, mais nous savons où aller.”

Concernant les astuces pour les prompts, ils donnent aussi leurs conseils respectifs. Adele recommande d’expérimenter avec le “mode réflexion ImageGen” — dans le mode Pro ou réflexion, ImageGen peut rechercher en ligne, analyser des fichiers, appeler des outils, et produire des images de meilleure qualité et composition. Elle suggère d’utiliser des prompts ouverts dans ce mode, laissant le modèle explorer et raisonner, tout en fixant un style esthétique clair comme point d’ancrage. Kenji préfère un style plus minimaliste, par exemple en demandant “garder propre et simple” pour des infographies.

Si DALL-E représente l’âge de pierre de la génération d’images, alors ImageGen 2.0 en est la renaissance — une avancée non seulement artistique, mais une fusion complète de science, d’art, d’architecture, de connaissance et d’esthétique. En conclusion, Adele résume cette évolution par une phrase, qui pourrait aussi être la meilleure façon de comprendre ce modèle : il n’est plus simplement un “outil de dessin”, mais un véritable agent visuel qui commence à comprendre le monde, les humains et la beauté.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé