La moitié de l'équipe GPT Image 2 composée de Chinois révélée, 13 personnes en 4 mois pour atteindre la célébrité

GPT Image2 fait sensation sur tout le web, mais pourquoi son efficacité est-elle si impressionnante ?

Le responsable de l’étude, Chen Boyuan, révèle que l’architecture sous-jacente a été complètement reconçue.

Mais il refuse de répondre à la question de savoir s’il a utilisé un modèle de diffusion ou une technique autoregressive, se contentant de le décrire mystérieusement comme un « modèle universel » ou un « GPT dans le domaine de l’image ».

Un tweet de Chen Boyuan indique également qu’en partant de GPT Image 1.5 fin décembre dernier, il n’a fallu que quatre mois pour réaliser une telle avancée.

Une telle percée, l’équipe centrale ne compte que 13 personnes.

Le responsable de toute l’équipe, Gabriel Goh, a publié une photo de famille de l’équipe d’IA.

Dans la section commentaires, certains internautes s’étonnent : pourquoi y a-t-il autant d’Asiatiques ?

Chen Boyuan : de ne pas connaître Python à Research Lead

Quelle est réellement l’architecture de GPT Image 2 ?

OpenAI ne la dévoilera probablement pas avant longtemps, mais en examinant le parcours académique des membres clés, on peut déceler quelques indices.

Chen Boyuan est le Research Lead de l’équipe. Lui et un autre membre, Kiwhan Song, ont fait leur doctorat au MIT sous la supervision du professeur Vincent Sitzmann.

Son travail de doctorat, Diffusion Forcing : Next-token Prediction Meets Full-Sequence Diffusion, a été sélectionné pour NeurIPS 2024.

Cette recherche propose une nouvelle paradigme d’entraînement pour la génération de séquences, Diffusion Forcing, combinant la diffusion de bruit indépendant par token avec la prédiction causale du token suivant, fusionnant la génération à longueur variable des modèles autoregressifs et les avantages de la diffusion sur toute la séquence.

Lors de son stage chez Google, il a également publié SpatialVLM en tant que co-auteur.

En construisant automatiquement un ensemble de données de raisonnement spatial en 3D à l’échelle d’Internet (10 millions d’images, 2 milliards de paires Q&A), il a permis aux modèles de langage visuel d’acquérir une capacité de raisonnement spatial quantitatif / qualitatif, pouvant sortir des distances, tailles, orientations précises à partir d’une seule image 2D.

Cette recherche applique la chaîne de raisonnement spatial à l’intelligence incarnée.

Pendant son stage chez Google, la technique de fine-tuning par instruction qu’il a développée a été adoptée plus tard par Gemini 2.0.

Lors de ses études secondaires, il ne connaissait pas encore la syntaxe de base de Python, c’est alors qu’il a rencontré le chercheur senior de DeepMind, Xia Fei, qui l’a introduit dans le monde de l’IA.

Xia Fei l’a invité deux fois à faire un stage de haute qualité chez DeepMind, ces expériences lui ont permis d’accumuler une expérience en entraînement de modèles à grande échelle, tout en lui offrant une perspective précieuse sur les besoins en données des systèmes multimodaux.

Après avoir obtenu son doctorat, Chen Boyuan a rejoint OpenAI en juin 2025, devenant rapidement l’un des cinq membres clés du groupe de génération d’images GPT, responsable de tout l’entraînement du modèle d’image GPT, et aussi membre de l’équipe de génération vidéo Sora.

Lors d’une démonstration, il a réalisé une affiche pour sa ville natale, Wuxi. Puis il a créé une affiche en coréen pour un collègue de Séoul, et une en bengali pour un collègue du Bangladesh. Chaque texte dans ces images était rendu avec une précision parfaite.

Jianfeng Wang de l’USTC : faire comprendre au AI les connaissances du monde à partir d’images brutes

Jianfeng Wang, diplômé en doctorat de l’USTC, est responsable dans l’équipe GPT Image 2 d’une capacité étonnante : suivre les instructions et comprendre le monde.

Les images d’horloges toujours pointant 10:10 dans les anciens modèles proviennent d’une publicité horlogère en ligne, presque toutes affichant 10:10.

Cela s’explique par une expérience menée par des horlogers avec des psychologues, qui pensent que cette position stimule l’envie d’acheter des montres.

Il a demandé au nouveau modèle de dessiner 2:25, 3:30, 9:10, 7:45, et tous ont été précis.

Ce n’est qu’un début.

Il peut aussi générer des dispositions spatiales plus complexes : une pomme au centre, une tasse à droite, un livre en haut, un appareil photo à gauche, un ballon de basket en dessous. Le modèle exécute tout avec précision.

Avant de rejoindre OpenAI, il a travaillé près de 9 ans chez Microsoft. Pendant cette période, il a collaboré avec l’équipe d’OpenAI sur DALL·E 3.

Il a publié plusieurs articles en vision par ordinateur, couvrant la classification d’images, la détection d’objets, la segmentation sémantique, et l’apprentissage de représentations visuelles.

La grande amélioration de la compréhension du monde permet une compréhension correcte du contenu sémantique et des fonctions des objets.

Wang Jianfeng conclut dans la vidéo de démonstration : GPT Image 2 élimine l’écart entre votre intention et la production du modèle.

Il réalise ce que vous souhaitez vraiment, et le modèle vous donne ce que vous voulez.

Yuguang Yang : générer des graphiques d’informations complexes et précis

Yuguang Yang a montré lors du lancement de GPT Image 2 sa capacité à générer des infographies et des PPT.

Il a automatisé la création de 7 diapositives à partir d’un article GPT-3 de 75 pages.

Son parcours est probablement le plus riche parmi les membres, passant d’un domaine à l’autre, mais toujours axé sur l’apprentissage automatique.

Il a étudié l’ingénierie à l’Université Zhejiang, puis la chimie physique et l’apprentissage automatique à Johns Hopkins.

Sa première expérience professionnelle était analyste quantitatif. Pendant ses recherches à Tsinghua, il a travaillé sur des algorithmes d’apprentissage par renforcement pour les nanorobots.

Il a ensuite travaillé chez Amazon sur la recherche vocale Alexa.

Puis chez Microsoft, sur la compréhension des requêtes de recherche Bing et la compréhension de documents.

Après avoir rejoint OpenAI début 2025, il a participé à la fois à la génération d’images et au projet d’agent intelligent ChatGPT.

Il présente sur son compte personnel la capacité de GPT Image 2 à générer des infographies, ce qui peut faire gagner énormément de temps aux chercheurs.

Il insiste aussi sur l’importance de réfléchir à la façon de concevoir les infographies.

De DALL-E à GPT Image 2.0

D’après l’auto-présentation de Kenji Hata, GPT Image 1.0, c’est-à-dire la partie génération d’images de GPT-4o.

Une personne qui a participé à la recherche multimodale d’OpenAI depuis DALL-E.

Il s’agit de Gabriel Goh, responsable de l’équipe GPT Image 2.0.

Il a rejoint OpenAI en 2019, ses premières recherches étant plus théoriques, axées sur l’explicabilité et l’optimisation convexe, entre autres.

Depuis DALL-E, il s’est progressivement tourné vers la génération d’images.

En regardant le parcours de Weixin Liang, un autre membre de l’équipe, on découvre une autre facette de la technologie de GPT Image 2.

Il a effectué un stage chez Meta, où il a développé Mixture-of-Transformers, introduisant la déconnexion de modalité (MoE) et l’attention déconnectée, réduisant considérablement le coût de pré-entraînement des modèles multimodaux.

Il a obtenu son doctorat à Stanford, après avoir aussi été diplômé de Zhejiang University, mais plusieurs années après Yuguang Yang.

Comme Chen Boyuan, Liang a rejoint OpenAI en 2025, juste après son doctorat, et est rapidement devenu un membre central de l’équipe.

Les autres membres de GPT Image 2.0 incluent :

Ayaan Haque, qui travaillait chez Luma AI, participant à l’entraînement du modèle de base de génération vidéo Luma Dream Machine.

Bing Liang, qui a passé plus de 5 ans chez Google, participant à Imagen 3, Veo, Gemini Multimodal, et qui a rejoint OpenAI en 2025 pour la recherche en génération d’images.

Mengchao Zhong, diplômé de Shanghai Jiao Tong University, puis de l’Université du Texas A&M, ayant travaillé comme ingénieur logiciel chez Pinterest et Airtable, responsable des produits multimodaux chez OpenAI.

Dibya Bhattacharjee, de Yale, médaillé de bronze à l’IPhO 2015, avec des scores exceptionnels en mathématiques et biologie en CIE A-Level.

Kiwhan Song, le dernier arrivé en octobre 2025, est aussi un maître des prompts, et beaucoup des images officielles de démonstration sont de sa main.

……

De DALL-E à GPT Image 2.0, cette équipe a successivement résolu : dessiner, clarifier, rendre beau, précis.

Malgré une forte rotation des talents chez OpenAI ces dernières années, l’entreprise continue d’attirer des talents aux profils variés, sans restriction de discipline, favorisant la recherche émergente et décentralisée.

D’une petite équipe, avec des percées, elle a attiré plus de ressources, jusqu’à changer le monde.

One More Thing

Autrefois, le portrait généré dans le style Ghibli par GPT-4o a fait le tour du monde.

Aujourd’hui, tous les membres de GPT Image 2.0 ont remplacé leur avatar par ce style étrange et décalé.

Et quels sont les prompts pour ce style ? Les membres ont aussi publié leur recette.

Utilisez ma photo uniquement pour l’identité. Redessinez-moi comme un caricature japonaise surréaliste très simple, dans le style autocollant : long cou fin, visage petit et impassible, contour noir minimaliste, couleurs plates, presque sans ombrage, très peu de détails faciaux, forme de cheveux simplifiée, beaucoup d’espace blanc, fond blanc uni, légèrement maladroit et drôle. Image ultra-longue 1:3.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler