Neuf ans après les huit auteurs de Transformer : Google n'en a retenu aucun.

Titre original : « Les huit parents de Transformer, où sont-ils aujourd’hui ? »
Source originale : Heart of Machine

Le 18 juin, Noam Shazeer, l’un des co-auteurs de l’article sur Transformer, a annoncé son départ de X pour rejoindre OpenAI. Deux jours plus tard, John Jumper, lauréat du prix Nobel de chimie 2024 et responsable de l’équipe AlphaFold, a également quitté Google DeepMind pour se rendre chez Anthropic.

Ces deux annonces successives ont provoqué une vive réaction sur les marchés financiers : l’action d’Alphabet, la société mère de Google, a chuté de plus de 7 %, effaçant plus de 300 milliards de dollars de capitalisation boursière. Plusieurs cabinets d’analyse ont attribué cette vente massive à une « fuite des talents ». Gil Luria, analyste chez D.A. Davidson, a déclaré sans détour que le départ de Shazeer pour OpenAI et celui de Jumper pour Anthropic, presque simultanés, ont suscité des inquiétudes quant à la position de Google dans la guerre des talents en IA.

Le départ de Shazeer est particulièrement intrigant – c’est déjà la deuxième fois qu’il quitte Google.

En 2021, mécontent que l’entreprise refuse de rendre public le chatbot qu’il avait dirigé, il est parti fonder Character.AI ; en août 2024, Google a racheté la licence technologique de Character.AI pour environ 2,7 milliards de dollars, le ramenant ainsi chez DeepMind, où il a été nommé vice-président ingénierie du projet Gemini, codirigeant ce projet avec Jeff Dean. Moins de deux ans plus tard, il est reparti, cette fois chez l’ennemi juré OpenAI.

Ainsi, les huit co-auteurs de l’article « Attention Is All You Need », publié il y a neuf ans, ont tous quitté Google.

L’utilisateur Tyler Maran a réalisé un schéma montrant leurs destinations respectives, qui a été massivement partagé sur les réseaux sociaux.

Cependant, ce schéma pourrait bientôt être obsolète. Au cours des deux derniers jours, des rumeurs ont circulé selon lesquelles NVIDIA serait en train de recruter discrètement l’équipe principale d’Essential AI, dont Ashish Vaswani, l’un des auteurs de l’article sur Transformer et cofondateur et PDG d’Essential AI. À l’heure actuelle, ni NVIDIA ni Essential AI n’ont officiellement répondu à cette information.

Profitons de cette occasion pour faire un bilan complet des parcours de ces huit personnes, surnommées les « pères de Transformer », sur neuf ans, et de leurs destinations réelles aujourd’hui.

Il est important de préciser que l’ordre des auteurs de l’article « Attention Is All You Need » est aléatoire. La note de bas de page de l’article indique clairement : Tous les auteurs ont contribué de manière égale, l’ordre est aléatoire, il n’y a donc pas de « premier auteur » ou d’« auteur correspondant ». Cet article suivra donc l’ordre de signature original de l’article pour présenter ces huit personnes.

« L’origine de tout » : huit Googlers pas comme les autres

Pour comprendre leurs destinations aujourd’hui, il faut revenir en 2017. À l’époque, l’approche dominante en traduction automatique était le réseau de neurones récurrent (RNN). Le modèle devait traiter les phrases mot par mot dans l’ordre, comme une file d’attente sur une voie unique, impossible à paralléliser, lent et coûteux à entraîner.

Les huit membres de Google Brain ont décidé d’essayer une idée presque audacieuse : supprimer complètement la structure récurrente pour ne garder que le « mécanisme d’attention », permettant au modèle de voir la phrase entière en une seule fois et de décider lui-même quel mot mérite le plus d’attention. Le titre de l’article, « Attention Is All You Need », s’inspire de la chanson des Beatles « All You Need Is Love », et est depuis devenu un modèle pour de nombreux titres d’articles.

La section des contributions des auteurs de l’article décrit brièvement ce que chacun a fait :

· Jakob Uszkoreit a été le premier à proposer de remplacer la structure récurrente par l’auto-attention et a dirigé la validation précoce de cette idée ;

· Ashish Vaswani et Illia Polosukhin ont conçu et implémenté le premier modèle Transformer, participant à presque toutes les étapes du projet ;

· Noam Shazeer a proposé l’attention par points scalés, le mécanisme d’attention multi-têtes et la représentation positionnelle sans paramètre, un autre contributeur omniprésent ;

· Niki Parmar a conçu, implémenté et débogué d’innombrables variantes du modèle dans le code initial et le framework tensor2tensor ;

· Llion Jones a également testé de nombreuses nouvelles variantes et a été responsable du code initial, de l’optimisation de l’inférence et de la visualisation ;

· Łukasz Kaiser et Aidan N. Gomez ont passé d’innombrables journées et nuits à construire les modules de tensor2tensor, remplaçant l’ancien code et améliorant considérablement l’efficacité des expériences et de la recherche.

Cette description révèle également un détail : bien que l’ordre des auteurs soit aléatoire, Uszkoreit, Vaswani, Polosukhin et Shazeer ont clairement joué un rôle plus central au niveau de l’architecture, tandis que Parmar, Jones, Kaiser et Gomez ont davantage porté le poids de l’implémentation technique et de la construction du système – c’est une note précoce des différences de personnalité et de spécialisation qui se manifesteront plus tard dans leurs choix de carrière.

Le nom « Transformer » lui-même a une anecdote. Uszkoreit aimait la prononciation de ce mot, alors l’équipe s’est surnommée « Team Transformer », et les premières couvertures des documents de conception représentaient six personnages du dessin animé Transformers.

Depuis sa publication, l’article a été cité plus de 260 000 fois, ce qui en fait l’un des articles les plus cités du XXIe siècle.

Ashish Vaswani

Vaswani est né en 1986, indien. En 2002, il a obtenu une licence en informatique à l’Institut de technologie Birla (BIT Mesra), puis est parti aux États-Unis pour poursuivre un doctorat à l’Université de Californie du Sud sous la direction de David Chiang, se concentrant sur la traduction automatique statistique et la modélisation linguistique par réseaux de neurones. Après son doctorat, il a travaillé deux ans comme informaticien à l’Institut des sciences de l’information de l’USC, puis a rejoint Google Brain en 2016 en tant que chercheur scientifique, y restant jusqu’en 2021.

Selon la description des contributions de l’article, Vaswani a conçu et implémenté le premier modèle Transformer avec Illia Polosukhin, faisant partie des figures centrales « ayant participé à presque toutes les étapes du projet ».

Après avoir quitté Google, Vaswani a co-fondé Adept AI en 2021 avec Niki Parmar et David Luan, ancien vice-président ingénierie d’OpenAI, en tant que scientifique en chef, visant à créer des « modèles d’action » capables d’effectuer des opérations autonomes dans n’importe quel logiciel.

Adept a levé plus de 400 millions de dollars, pour une valorisation d’environ 1 milliard de dollars, mais le produit a tardé à être commercialisé et des divergences internes sont apparues. Vaswani et Parmar se sont rapidement retirés – son mandat de scientifique en chef chez Adept a pris fin en novembre 2022.

Début 2023, Vaswani et Parmar se sont à nouveau associés pour fonder Essential AI, dont il est devenu PDG. La société a reçu des investissements stratégiques de Google, NVIDIA et AMD : un tour de table de 8,3 millions de dollars mené par Thrive Capital, suivi d’un tour de série A de 56,5 millions de dollars fin 2023 mené par March Capital, avec la participation de Google, NVIDIA, AMD, KB Investment, Franklin Templeton, etc.

Début 2026, la société a finalisé un tour de série B de 175 millions de dollars mené par Lightspeed Venture Partners avec la participation de Thrive Capital, atteignant une valorisation de 1 milliard de dollars et devenant officiellement une licorne.

Fin 2025, la société a publié sa première série de modèles open source, Rnj-1 (nommé d’après le mathématicien indien Ramanujan).

Cependant, au cours des deux derniers jours, la situation a soudainement changé. Selon des rapports, NVIDIA recrute l’équipe principale d’Essential AI, dont Vaswani lui-même, pour participer au développement du modèle open source Nemotron de NVIDIA.

Des sources indiquent que la raison est assez pragmatique : Essential AI rencontre des difficultés de financement, et attirer Vaswani et son équipe loin du camp d’AMD (qui était un investisseur stratégique précoce d’Essential AI, la société ayant longtemps dépendu des GPU d’AMD) est en soi une bonne affaire.

Plusieurs chercheurs d’Essential AI (dont Alok Tripathy et Saurabh Srivastava) ont mis à jour leurs profils LinkedIn, indiquant qu’ils ont rejoint NVIDIA. Cependant, à l’heure actuelle, ni NVIDIA ni Essential AI n’ont officiellement confirmé cette information.

Noam Shazeer

Shazeer est né en 1976 à Philadelphie, issu d’une famille juive orthodoxe ; son père Dov Shazeer était ingénieur et professeur de mathématiques, et sa sœur a été ordonnée rabbin par le Hebrew College. Il a montré un talent précoce, participant en 1994 à l’Olympiade internationale de mathématiques en tant que membre de l’équipe américaine, obtenant une médaille d’or avec un score parfait, puis étudiant les mathématiques et l’informatique à l’Université Duke, lauréat de la bourse commémorative Angier B. Duke et également lauréat du concours Putnam.

En 2000, Shazeer a rejoint Google, connu notamment pour avoir corrigé la fonction de correction orthographique de Google Search.

Selon la description des contributions de l’article sur Transformer, il a proposé l’attention par points scalés, le mécanisme d’attention multi-têtes et la représentation positionnelle sans paramètre, étant, avec Vaswani et Polosukhin, l’un de ceux « ayant participé à presque tous les détails ».

Après avoir co-écrit l’article sur Transformer en 2017, il a créé le chatbot Meena avec son collègue Daniel De Freitas, mais Google, par prudence, n’a pas voulu le rendre public. Ils ont tous deux démissionné en 2021 pour fonder Character.AI, levant plus de 150 millions de dollars auprès d’a16z et d’autres investisseurs, créant une application de chat de rôle populaire.

En août 2024, un tournant s’est produit : Google a conclu un accord de licence avec Character.AI, d’un montant estimé à 2,7 milliards de dollars, et Shazeer et De Freitas sont retournés chez Google DeepMind avec un petit groupe de collègues. Il a été nommé vice-président ingénierie, codirigeant le projet Gemini avec Jeff Dean et Oriol Vinyals.

Étant donné qu’il détenait environ 30 à 40 % des actions de Character.AI, cette transaction lui aurait rapporté entre 750 millions et 1 milliard de dollars. En 2026, il a été élu membre de la National Academy of Engineering des États-Unis, son CV paraissant florissant.

Mais quelques mois plus tard, il a choisi de partir à nouveau, cette fois pour OpenAI, où il serait en charge d’une direction appelée « recherche en architecture », juste au moment où OpenAI recrute en prévision de son introduction en bourse (la société a déposé un formulaire S-1 confidentiel auprès de la SEC américaine le 8 juin, avec une valorisation estimée à 852 milliards de dollars).

Sam Altman, PDG d’OpenAI, a déclaré publiquement de manière inhabituelle : « Depuis le premier jour d’OpenAI, il fait partie des personnes avec qui j’ai le plus envie de travailler », ajoutant que ce recrutement « se préparait depuis dix ans ».

Pour Google, c’est un « rachat raté » coûteux : la personne ramenée pour 2,7 milliards de dollars il y a deux ans rejoint aujourd’hui son principal concurrent, ce qui a été l’une des causes directes de la chute du titre de Google cette semaine.

Niki Parmar

Parmar est née à Pune, en Inde. Elle a obtenu une licence en technologies de l’information au Pune Institute of Computer Technology. Pendant ses études, elle s’est intéressée à l’IA et au machine learning grâce aux cours en ligne ouverts d’Andrew Ng et Peter Norvig, puis est partie aux États-Unis pour une maîtrise en informatique à l’Université de Californie du Sud, où elle a travaillé sur des problèmes de sciences sociales avec des méthodes de machine learning sous la direction du professeur Morteza Dehghani.

En 2015, Parmar a rejoin Google Research en tant qu’ingénieure logiciel, puis en 2017, elle est passée à Google Brain en tant qu’ingénieure de recherche logiciel – selon les rapports, elle était la plus jeune et la seule chercheuse sans doctorat de l’équipe Google Brain à l’époque.

Selon la description des contributions de l’article, elle a conçu, implémenté et débogué d’innombrables variantes du modèle dans le code initial et le framework tensor2tensor. Après la publication de l’article, elle a continué à étendre Transformer au-delà du langage, participant à des travaux d’extension du mécanisme d’auto-attention à la génération d’images et à la vision par ordinateur.

En 2021, Parmar a quitté Google pour co-fonder Adept AI avec Ashish Vaswani et David Luan, en tant que directrice technique. Comme Vaswani, elle s’est retirée tôt d’Adept, puis a co-fondé Essential AI avec Vaswani début 2023, continuant comme cofondatrice.

Mais elle n’a pas attendu le tour de série B et le statut de licorne d’Essential AI. Fin 2024, Parmar a discrètement quitté Essential AI pour rejoindre Anthropic, annonçant publiquement cette nouvelle en février 2025. Sur X, elle a écrit : « Aujourd’hui est aussi bon qu’un autre jour pour partager : j’ai rejoint Anthropic en décembre dernier. »

Elle a ensuite participé au développement de Claude 3.7 Sonnet – l’une des publications de modèle les plus importantes de l’histoire d’Anthropic. Aujourd’hui, elle est membre de l’équipe technique d’Anthropic (Member of Technical Staff), spécialisée dans la recherche de capacités avancées et l’apprentissage par renforcement.

Ces deux co-auteurs autrefois inséparables, co-fondateurs à deux reprises, ont finalement pris des chemins totalement différents : Parmar s’est discrètement retirée plus d’un an à l’avance, s’intégrant tranquillement dans un laboratoire de premier plan ; tandis que Vaswani a choisi de continuer à faire avancer Essential AI jusqu’à ce que la main d’un concurrent l’attrape cette semaine.

Jakob Uszkoreit

Uszkoreit est né dans une famille de linguistes. Son père, Hans Uszkoreit, est un célèbre linguiste computationnel. Lorsque son fils a proposé l’hypothèse que « l’attention seule suffit », même son père était sceptique. Uszkoreit a obtenu son doctorat à l’Université technique de Berlin, puis a atteint le niveau de « Distinguished Scientist » chez Google Brain.

Selon la description des contributions de l’article, c’est Uszkoreit qui a le premier proposé de remplacer les réseaux de neurones récurrents par un mécanisme d’auto-attention et a dirigé la validation précoce de cette idée – une graine déjà semée dans son article de 2016 sur le « modèle d’attention décomposable » co-écrit avec Ankur Parikh, Oscar Täckström et Dipanjan Das.

Le nom « Transformer » a également été choisi parce qu’il aimait la prononciation de ce mot ; l’équipe s’est surnommée « Team Transformer », et les couvertures des documents de conception représentaient six personnages du dessin animé Transformers.

Fin 2020, AlphaFold2 de DeepMind a prouvé qu’un modèle de type Transformer pouvait résoudre des problèmes de repliement des protéines, un défi de niveau « Saint Graal » en biologie. Il a de plus en plus réalisé que ce qui manquait à l’apprentissage profond pour vraiment changer la biologie, ce n’étaient pas les algorithmes, mais les données. « C’est presque devenu une obligation morale », a-t-il déclaré plus tard.

Ainsi, en 2021, il a co-fondé Inceptive avec Rhiju Das, professeur de biochimie à l’Université de Stanford et développeur du célèbre jeu de conception d’ARN Eterna. Le siège social est à Berkeley, l’équipe de recherche reste à Berlin – lui-même vit à Berlin, avec des employés également répartis à Zurich, Londres, Vancouver et sur la côte est des États-Unis.

L’idée centrale de l’entreprise est d’inverser l’expérience : au lieu d’avoir d’abord des données puis d’entraîner le modèle, elle génère à grande échelle de nouvelles données expérimentales d’ARN en utilisant des robots et des humains, puis les donne à apprendre au modèle.

Inceptive a levé environ 120 millions de dollars auprès de NVIDIA, a16z, Obvious Ventures, Section 32, etc. Le dernier développement remonte à ce mois-ci : début juin, Alnylam Pharmaceuticals, pionnière des thérapies par interférence ARN, a signé un partenariat stratégique avec Inceptive pour accélérer la conception de candidats siRNA à l’aide des modèles de base d’Inceptive, avec un paiement initial de 30 millions de dollars et un potentiel total estimé à environ 2 milliards de dollars.

Uszkoreit a déclaré dans un communiqué : « La plupart des conceptions de médicaments reposent encore sur l’essai-erreur – tester des milliers de molécules en espérant que l’une réussisse. L’approche d’Inceptive est différente : la vie suit des lois extrêmement complexes, que seule l’IA peut apprendre. »

Parmi les huit auteurs, il est le seul à avoir complètement changé de domaine pour la biotechnologie, confirmant la prophétie de l’article : le potentiel du mécanisme d’attention dépasse largement la traduction automatique.

Llion Jones

Jones est gallois, diplômé de l’Université de Birmingham. Il a rejoint Google en 2011 en tant qu’ingénieur logiciel, y restant plus de dix ans, l’un des rares parmi les huit auteurs à ne pas avoir de doctorat, s’appuyant uniquement sur son instinct d’ingénieur.

Selon la description des contributions de l’article, il a testé de nombreuses nouvelles variantes du modèle et a été responsable du code initial, de l’optimisation de l’inférence et de la visualisation.

Il a raconté plus tard ce moment décisif : « Nous commencions à essayer de supprimer certaines parties du modèle juste pour voir à quel point les performances se dégraderaient. À notre grande surprise, elles s’amélioraient. » C’est l’instant où l’hypothèse selon laquelle « la structure récurrente est redondante » a été vérifiée pour la première fois.

En 2023, Jones a fondé Sakana AI à Tokyo avec David Ha, également un ancien de Google. « Sakana » signifie « poisson » en japonais. Ha est PDG, Jones est CTO, et un autre cofondateur, Ren Ito, est COO.

Jones est désormais basé à Tokyo, se présentant sur les réseaux sociaux comme « chercheur en IA gallois vivant à Tokyo ». La ligne de recherche de l’entreprise est résolument contre-courant : au lieu de miser sur la puissance de calcul et le nombre de paramètres, elle s’inspire de la logique de l’évolution naturelle, faisant collaborer un groupe de modèles plus petits comme un banc de poissons. Les résultats représentatifs incluent Continuous Thought Machine et le projet « AI Scientist » capable de mener des recherches de bout en bout de manière autonome.

Récemment, l’entreprise a publié le modèle Sakana Fugu aux performances de pointe.

Sakana AI a levé un total de 379 millions de dollars, y compris un tour de série B finalisé en mars 2026, avec Mitsubishi Electric parmi ses investisseurs. En mars 2026, la société a également signé un accord de partenariat pluriannuel avec Mitsubishi UFJ Financial Group (MUFG). Ce dernier prévoit d’utiliser la technologie de Sakana pour moderniser ses systèmes bancaires, un partenariat qui, selon les rapports, pourrait permettre à cette société valorisée environ 1,5 milliard de dollars de devenir rentable en un an.

Jones a exprimé à plusieurs reprises son scepticisme à l’égard du simple « scaling ».

En mars 2026, lors d’un événement interne au secteur bancaire, il a déclaré que la recherche en IA est confrontée à une réalité embarrassante : l’afflux massif d’investissements et de talents devrait théoriquement générer davantage de percées, mais l’effet pourrait être inverse : les investisseurs poussent à des résultats rapides, la concurrence pousse à être le premier, réduisant ainsi l’espace de « libre exploration » pour les chercheurs.

Il a mentionné que Sakana conserve en interne une petite partie de liberté de recherche « sans KPI », car la prochaine percée viendra inévitablement de ce type d’investissement à long terme sans souci des conséquences – c’est exactement ainsi que Transformer est né dans ce bureau de Google Brain.

Il a également dit une phrase souvent citée : pour qu’une nouvelle architecture remplace vraiment Transformer, il ne suffit pas qu’elle soit « meilleure », elle doit être « nettement, indiscutablement meilleure ».

Aidan N. Gomez

Gomez est le plus jeune des huit auteurs. L’année de la publication de l’article, il n’était qu’un stagiaire de licence de 20 ans chez Google Brain, poursuivant une double licence en informatique et en mathématiques à l’Université de Toronto.

Selon la description des contributions de l’article, avec Łukasz Kaiser, il a passé d’innombrables journées et nuits à construire les modules du framework tensor2tensor, remplaçant l’ancien code et améliorant considérablement l’efficacité des expériences et de la recherche. « Je voulais juste comprendre comment fonctionnait le mécanisme d’attention », a-t-il déclaré plus tard, « je n’aurais jamais imaginé qu’il deviendrait l’architecture de tout. » Après l’article, il est allé à Oxford pour un doctorat, qu’il a interrompu pour créer une entreprise, obtenant finalement son doctorat en 2024 – on peut dire qu’il a rattrapé son diplôme tout en dirigeant son entreprise.

En 2019, Gomez a co-fondé Cohere avec Ivan Zhang et Nick Frosst, positionnant l’entreprise comme un fournisseur de services d’IA pour les entreprises, évitant délibérément la course aux chatbots grand public, mettant l’accent sur la confidentialité des données, le déploiement local et les capacités multilingues, avec une clientèle composée principalement de grandes entreprises et de gouvernements.

En 2023, Gomez a été sélectionné par le magazine Time parmi les 100 personnes les plus influentes dans le domaine de l’IA, et avec ses deux cofondateurs, ils ont remporté la première place du classement des tendances de l’IA du magazine Maclean’s ; en avril 2025, il a été élu au conseil d’administration du fabricant de véhicules électriques Rivian.

Cette approche relativement « peu sexy » a permis à l’entreprise d’afficher de bons résultats financiers : à la mi-2026, le revenu annualisé récurrent de Cohere dépassait 200 millions de dollars, en croissance multipliée par 6 sur l’année écoulée, avec une marge brute d’environ 70 %, et un financement total cumulé de près de 1,7 milliard de dollars, pour une valorisation d’environ 7 milliards de dollars ; en août 2025, la société a nommé Francois Chadwick, qui avait participé à l’introduction en bourse d’Uber, comme premier directeur financier, et une fenêtre de vente d’actions sur le marché secondaire pour les employés a déjà été ouverte. Gomez a déclaré à plusieurs reprises que l’IPO était « imminente », mais la société n’a pas encore déposé de prospectus auprès des autorités de régulation.

Ces dernières années, Gomez est de plus en plus perçu comme un porte-parole de l’IA sur le plan géopolitique. Cette semaine, il a écrit dans le magazine Fortune, appelant les pays à prendre au sérieux la question de la « souveraineté numérique ».

L’article mentionne directement le récent resserrement de l’accès aux modèles d’Anthropic, avertissant les pays de ne pas « louer » leur avenir à quelques géants technologiques centralisés, et proposant de construire un écosystème véritablement diversifié permettant à chaque pays de dépendre de différents fournisseurs d’IA tout en préservant ses valeurs, sa langue et son système juridique.

Il a également déclaré publiquement que les craintes de risques existentiels de type « apocalypse de l’IA » sont exagérées, et qu’il s’inquiète davantage des risques réels, comme la désinformation amplifiée automatiquement sur les réseaux sociaux. Aujourd’hui, Gomez ne parle plus seulement du modèle lui-même, mais de qui a le droit de décider quel type d’IA le monde utilisera.

Łukasz Kaiser

Kaiser est polonais. Sa formation initiale était en logique, théorie des automates, théorie des modèles algorithmiques et théorie des jeux, des domaines théoriques de l’informatique : il a obtenu une double maîtrise en mathématiques et en informatique à l’Université de Wrocław, puis un doctorat à l’Université technique de Rhénanie-Westphalie à Aix-la-Chapelle (RWTH Aachen), avant d’obtenir un poste de titulaire au CNRS et à l’Université Paris VII, se consacrant à la recherche pure en logique et en théorie des automates.

Plus tard, il s’est tourné vers des applications, travaillant près de 8 ans chez Google Brain, où il a également été co-auteur de TensorFlow et a publié des articles précoces comme « La mémoire active peut-elle remplacer l’attention ? » avec Samy Bengio, et « Neural GPU Learning Algorithms » avec Ilya Sutskever.

Selon la description des contributions de l’article, avec Aidan N. Gomez, il a passé d’innombrables journées et nuits à construire le framework tensor2tensor, améliorant considérablement l’efficacité des expériences et de la recherche.

Parmi les huit auteurs, il est le seul à ne pas avoir créé d’entreprise, restant toujours dans un grand laboratoire pour faire de la recherche pure.

En 2021, il a rejoint OpenAI, avant même le lancement de ChatGPT. Chez OpenAI, il a participé au développement de Codex (devenu la base technique de GitHub Copilot) ainsi qu’au benchmark de programmation HumanEval, et a également participé à la recherche sur le jeu de données mathématiques GSM8K, un travail qui a montré très tôt que « laisser le modèle réfléchir un peu plus longtemps et échantillonner plusieurs fois » pouvait considérablement améliorer la précision – c’est le précurseur du paradigme des modèles de raisonnement ultérieurs.

Il est également l’un des auteurs signataires du rapport technique de GPT-4, puis est devenu un contributeur clé du premier modèle de raisonnement d’OpenAI, o1 (publié en septembre 2024), considéré comme un « responsable de recherche », un rôle qui s’est poursuivi jusqu’à o3 et les paradigmes de raisonnement plus récents, jusqu’à la série actuelle GPT-5.

Récemment, dans le podcast MAD animé par Matt Turck, il a déclaré que Transformer a été mathématiquement prouvé capable de résoudre n’importe quel problème, à condition de permettre au modèle de générer suffisamment d’étapes de raisonnement intermédiaires. D’une certaine manière, c’est une annotation tardive et plus précise de l’article d’il y a neuf ans.

Illia Polosukhin

Polosukhin vient de Kharkiv, en Ukraine. Il a étudié les mathématiques appliquées en licence et a été champion du Concours international de programmation universitaire (ICPC). Selon ses propres souvenirs, après avoir regardé Matrix à l’âge de dix ans, il a développé un intérêt presque obsessionnel pour l’intelligence artificielle. En 2014, il a rejoint Google, participant à des travaux de recherche liés à TensorFlow, ainsi qu’à la compréhension de la lecture automatique et aux systèmes de questions-réponses.

Selon la description des contributions de l’article, avec Ashish Vaswani, il a conçu et implémenté le premier modèle Transformer, sa partie étant principalement la validation de l’efficacité de cette architecture sur les tâches de traduction automatique.

Après la publication de l’article, il a quitté Google en 2017 pour co-fonder une société d’IA d’abord appelée NEAR.AI avec Alexander Skidanov. Mais ils ont rapidement réalisé que construire une infrastructure décentralisée pourrait être plus intéressant que de faire des modèles. Ainsi, vers 2018, la société s’est transformée en projet blockchain NEAR Protocol.

NEAR a adopté une technologie de sharding appelée Nightshade et fournit une couche 2 compatible avec Ethereum via Aurora. Le réseau principal a été lancé en 2020, levant plus de 530 millions de dollars auprès d’a16z, Coinbase, Tiger Global Management, Hashed, Dragonfly Capital, etc.

Aujourd’hui, Polosukhin tente de rassembler ses deux premières identités : en mars 2026, il a déclaré aux médias que « les futurs utilisateurs de la blockchain seront des agents d’IA, pas des humains », positionnant NEAR comme la « couche de règlement » de l’économie des agents.

En avril de la même année, il a appelé publiquement à la mise en place d’un cadre réglementaire plus complet pour faire face aux agents d’IA autonomes ; selon lui, les institutions et systèmes existants ne sont pas encore prêts à gérer les questions de responsabilité et les risques systémiques posés par ces systèmes, et il a plaidé pour des mécanismes de responsabilité plus clairs et une supervision de type « humain dans la boucle ».

Il réside actuellement au Portugal. Entre « avoir écrit un article fondateur sur les LLM » et « diriger une entreprise blockchain valant plusieurs milliards de dollars », il est probablement le seul au monde à posséder les deux.

Huit chemins, toujours en exploration

En mars 2024, lors de la conférence GTC de NVIDIA, sept des huit auteurs (Niki Parmar était absente) sont apparus ensemble pour la première fois en tant que groupe, interviewés par Jensen Huang.

Huang a déclaré : « Tout ce dont nous jouissons aujourd’hui remonte à ce moment-là. »

À la fin de la conversation, il a offert à chacun une plaque commémorative signée du supercalculateur NVIDIA DGX-1 avec l’inscription « Vous avez changé le monde (You transformed the world) ». En novembre de la même année, la Fondation NEC C&C du Japon a décerné le prix C&C de l’année à l’« équipe Transformer » composée de ces huit personnes, en même temps que trois ingénieurs seniors spécialisés dans la technologie de transmission par câbles sous-marins transocéaniques. Constructeurs d’infrastructures de deux domaines totalement différents, réunis dans un même prix.

Neuf ans ont passé, ces huit trajectoires de vie se sont dispersées dans des directions qui ne se croiseront probablement plus : le secteur des services aux entreprises dans la Silicon Valley, le laboratoire d’algorithmes évolutionnistes à Tokyo, la société de biologie moléculaire à Berlin, le protocole blockchain au Portugal, et les principaux laboratoires d’IA qui continuent de se reconfigurer cette semaine.

Mais si l’on rassemble leurs propos au fil des ans, on constate un jugement commun qui revient : personne ne croit vraiment que Transformer sera le point final.

Aidan N. Gomez a dit que le monde a besoin de quelque chose de mieux que Transformer ; Llion Jones a dit que la prochaine architecture doit être « nettement, indiscutablement meilleure » pour le remplacer ; Łukasz Kaiser continue d’utiliser le langage mathématique pour tenter d’expliquer jusqu’où cette architecture née il y a neuf ans peut encore emmener l’humanité.

C’est peut-être l’héritage le plus durable de cet article : ses huit auteurs, dispersés aux quatre coins du monde, n’ont pas cessé de chercher la prochaine réponse.

Lien original

Cliquez pour connaître les postes à pourvoir chez BlockBeats

Bienvenue dans les communautés officielles de BlockBeats :

Groupe d’abonnement Telegram : https://t.me/theblockbeats

Groupe de discussion Telegram : https://t.me/BlockBeats_App

Compte Twitter officiel : https://twitter.com/BlockBeatsAsia

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé