El 18 de junio, Noam Shazeer, uno de los coautores del artículo de Transformer, anunció en X su renuncia para unirse a OpenAI. Dos días después, John Jumper, ganador del Premio Nobel de Química 2024 y líder del equipo AlphaFold, también anunció su salida de Google DeepMind, con destino a Anthropic.

Dos noticias consecutivas provocaron una fuerte reacción en el mercado de capitales: las acciones de la matriz de Google, Alphabet, llegaron a desplomarse más de un 7%, evaporando más de 300 mil millones de dólares en valor de mercado. Varias agencias de análisis atribuyeron esta venta masiva a la «fuga de talentos». Gil Luria, analista de D.A. Davidson, dijo directamente que Shazeer se fue a OpenAI y Jumper a Anthropic, y que sus renuncias casi simultáneas hicieron que el mercado empezara a preocuparse de que Google esté perdiendo terreno en la guerra por el talento en IA.

La salida de Shazeer es particularmente reveladora: ya es la segunda vez que abandona Google.

En 2021, insatisfecho porque la empresa no quería lanzar públicamente el chatbot que él lideraba, se fue para fundar Character.AI; en agosto de 2024, Google pagó unos 2700 millones de dólares por la licencia de la tecnología de Character.AI, y de paso lo trajo de vuelta a DeepMind, nombrándolo vicepresidente de ingeniería del proyecto Gemini, codirigiendo el proyecto junto con Jeff Dean. Menos de dos años después, se fue de nuevo, esta vez a su rival directo OpenAI.

Hasta ahora, los ocho coautores de aquel artículo publicado hace nueve años, «Attention Is All You Need», han abandonado Google por completo.

El usuario Tyler Maran hizo un gráfico que reúne sus destinos actuales, y se ha vuelto viral en las redes sociales.

Sin embargo, este gráfico podría quedar obsoleto pronto. Justo en los últimos dos días, han circulado rumores en el mercado de que NVIDIA está absorbiendo discretamente al equipo central de Essential AI, incluido Ashish Vaswani, coautor del artículo de Transformer y cofundador y CEO de Essential AI. Al momento de redactar este artículo, ni NVIDIA ni Essential AI han respondido oficialmente al respecto.

Aprovechando esta oportunidad, repasemos completamente las trayectorias de estas ocho personas, conocidas como los «padres de Transformer», durante los últimos nueve años, y su verdadero destino actual.

Cabe aclarar que el orden de los autores del artículo «Attention Is All You Need» es aleatorio. La nota al pie del artículo indica claramente: Todos los autores contribuyeron por igual, el orden es aleatorio, por lo que no existe un «primer autor» ni un «autor de correspondencia». Este artículo presentará a estas ocho personas en el orden de firma original del artículo.

«El origen de todo»: Ocho googlers que no se dedicaban a lo suyo

Para entender adónde fueron hoy, hay que volver a 2017. En ese entonces, el enfoque dominante en traducción automática era la red neuronal recurrente (RNN), que debía procesar las oraciones palabra por palabra en orden, como haciendo fila en un carril único para cruzar la calle, sin posibilidad de cómputo paralelo y con un entrenamiento lento y costoso.

Ocho personas de Google Brain decidieron probar una idea casi temeraria: desechar toda la estructura recurrente y quedarse solo con el «mecanismo de atención», permitiendo que el modelo viera toda la frase de una sola vez y juzgara por sí mismo qué palabra debía recibir más atención. El título del artículo, «Attention Is All You Need», parafrasea la canción de los Beatles «All You Need Is Love», y desde entonces se ha convertido en una forma imitada por muchos títulos de artículos.

La nota de contribución de los autores del artículo registra brevemente lo que cada uno hizo específicamente:

· Jakob Uszkoreit fue el primero en proponer reemplazar la estructura recurrente con autoatención y lideró la validación temprana de esta idea;

· Ashish Vaswani junto con Illia Polosukhin diseñaron e implementaron el modelo Transformer original, participando en casi todos los aspectos del proyecto;

· Noam Shazeer propuso la atención de producto punto escalado, el mecanismo de atención de múltiples cabezas y el método de representación posicional sin parámetros, siendo otra persona que estuvo involucrada en casi todos los detalles;

· Niki Parmar diseñó, implementó y depuró innumerables variantes del modelo en el repositorio de código original y en el framework posterior tensor2tensor;

· Llion Jones también probó una gran cantidad de nuevas variantes del modelo y se encargó del repositorio de código original, la optimización de la eficiencia de inferencia y el trabajo de visualización;

· Łukasz Kaiser y Aidan N. Gomez dedicaron innumerables días y noches a construir los módulos de tensor2tensor, reemplazando el repositorio de código temprano y mejorando significativamente la eficiencia de los resultados experimentales y la investigación.

Esta nota también revela indirectamente un detalle: aunque el orden de firma del artículo es aleatorio, Uszkoreit, Vaswani, Polosukhin y Shazeer claramente asumieron roles más centrales a nivel de arquitectura, mientras que Parmar, Jones, Kaiser y Gomez levantaron el peso en la implementación de ingeniería y la construcción del sistema. Esto resultó ser una nota temprana de la diferencia de personalidades y especializaciones cuando las ocho personas tomaron caminos distintos más tarde.

El nombre «Transformer» en sí mismo tiene una anécdota. A Uszkoreit le gustaba la pronunciación de la palabra, por lo que el equipo internamente se autodenominó «Team Transformer», y en las primeras portadas de los documentos de diseño aparecían seis personajes de la serie de animación Transformers.

Desde la publicación del artículo, ha sido citado más de 260.000 veces, convirtiéndose en uno de los artículos más citados del siglo XXI.

Ashish Vaswani

Vaswani nació en 1986, indio. En 2002 obtuvo su licenciatura en Ciencias de la Computación en el Instituto de Tecnología Birla de la India (BIT Mesra). Luego se fue a Estados Unidos, donde hizo su doctorado en la Universidad del Sur de California bajo la supervisión de David Chiang, investigando en traducción automática estadística y modelado de lenguaje con redes neuronales. Tras completar el doctorado, trabajó como científico informático durante dos años en el Instituto de Ciencias de la Información de la USC, y en 2016 se unió oficialmente a Google Brain como científico de investigación, donde trabajó hasta 2021.

Según la nota de contribución de autores del artículo, Vaswani, junto con Illia Polosukhin, diseñó e implementó el modelo Transformer original, siendo una de las figuras centrales que «participó en casi todos los aspectos del proyecto».

Después de dejar Google, Vaswani cofundó Adept AI en 2021 junto con Niki Parmar, el exvicepresidente de ingeniería de OpenAI David Luan, entre otros, como científico jefe, con el objetivo de crear un «modelo de comportamiento» que pudiera realizar operaciones autónomamente en cualquier software.

Adept llegó a recaudar más de 400 millones de dólares, con una valoración de aproximadamente 1.000 millones, pero el producto no logró materializarse y surgieron divisiones internas. Vaswani y Parmar optaron por salir temprano: su mandato como científico jefe en Adept terminó en noviembre de 2022.

A principios de 2023, Vaswani y Parmar se unieron nuevamente para fundar Essential AI, con Vaswani como CEO. La empresa recibió inversiones estratégicas de Google, NVIDIA y AMD: una ronda semilla de 8,3 millones liderada por Thrive Capital, y una ronda Serie A de 56,5 millones a finales de 2023 liderada por March Capital, con la participación de Google, NVIDIA, AMD, KB Investment, Franklin Templeton, entre otros.

A inicios de 2026, la empresa completó una ronda Serie B de 175 millones liderada por Lightspeed Venture Partners, con la participación de Thrive Capital, alcanzando una valoración de 1.000 millones de dólares y convirtiéndose oficialmente en un unicornio.

A finales de 2025, la empresa lanzó su primera serie de modelos de código abierto, Rnj-1 (nombrado en honor al matemático indio Ramanujan).

Sin embargo, en los últimos dos días, la dirección cambió. Se informó que NVIDIA está reclutando al equipo central de Essential AI, incluido el propio Vaswani, quien se unirá al desarrollo del modelo de código abierto de NVIDIA, Nemotron.

Fuentes cercanas revelaron que la razón es bastante realista: Essential AI está enfrentando dificultades de financiación, y arrebatar a Vaswani y su equipo del campo de la competencia de NVIDIA, AMD (AMD ha sido uno de los inversores estratégicos iniciales de Essential AI, y la empresa ha dependido durante mucho tiempo de las GPU de AMD), es en sí mismo un negocio rentable.

Varios investigadores de Essential AI (incluidos Alok Tripathy, Saurabh Srivastava) ya han actualizado sus perfiles de LinkedIn mostrando que se han unido a NVIDIA. Pero hasta ahora, ni NVIDIA ni Essential AI han confirmado oficialmente esta noticia.

Noam Shazeer

Shazeer nació en 1976 en Filadelfia, es un judío ortodoxo. Su padre, Dov Shazeer, era ingeniero de profesión y profesor de matemáticas; su hermana fue ordenada rabina por el Hebrew College. Mostró un talento excepcional desde joven. En 1994, como miembro del equipo estadounidense, participó en la Olimpiada Internacional de Matemáticas y obtuvo una medalla de oro con puntuación perfecta. Luego ingresó a la Universidad de Duke para estudiar matemáticas y ciencias de la computación, fue becario de la Beca Conmemorativa Angier B. Duke y también obtuvo premios en la Competencia de Matemáticas Putnam.

En el año 2000, Shazeer se unió a Google. Su primer logro reconocido fue arreglar la función de corrección ortográfica de la búsqueda de Google.

Según la nota de contribución de autores del artículo de Transformer, propuso la atención de producto punto escalado, el mecanismo de atención de múltiples cabezas y el método de representación posicional sin parámetros, siendo, además de Vaswani y Polosukhin, otra persona «que participó en casi todos los detalles».

Después de coescribir el artículo de Transformer en 2017, junto con su colega Daniel De Freitas, crearon el chatbot Meena, pero Google, por prudencia, no lo lanzó públicamente. Ambos decidieron renunciar en 2021 y fundaron Character.AI, que recaudó más de 150 millones de dólares de a16z y otras firmas, convirtiéndose en una popular aplicación de chat de roles.

En agosto de 2024, la historia dio un giro: Google llegó a un acuerdo de licencia con Character.AI, reportado por unos 2700 millones de dólares. Shazeer y De Freitas regresaron a Google DeepMind con un pequeño grupo de colegas. Fue nombrado vicepresidente de ingeniería, codirigiendo el proyecto Gemini junto con Jeff Dean y Oriol Vinyals.

Dado que poseía entre el 30% y el 40% de las acciones de Character.AI, se estima que esta transacción le reportó un beneficio personal de entre 750 millones y 1.000 millones de dólares. En 2026, fue elegido miembro de la Academia Nacional de Ingeniería de EE. UU., con un currículum en alza.

Pero apenas unos meses después, eligió irse de nuevo, esta vez con destino a OpenAI, donde se reporta que estará a cargo de un área llamada «investigación en arquitectura», justo coincidiendo con la ventana de contratación de OpenAI para preparar su salida a bolsa (la empresa presentó en secreto el formulario S-1 ante la SEC el 8 de junio, con rumores de valoración de hasta 852 mil millones de dólares).

El CEO de OpenAI, Sam Altman, se pronunció públicamente de manera inusual: «Desde el primer día de la fundación de OpenAI, ha sido una de las personas con las que más deseaba trabajar», y dijo que esta contratación «se había estado gestando durante diez años».

Para Google, se trata de una «recompra fallida» de alto costo: la persona que trajeron de vuelta por 27 mil millones de dólares hace dos años ahora se ha unido a su principal competidor, y esto se ha convertido en uno de los detonantes directos de la fuerte caída de las acciones de Google esta semana.

Niki Parmar

Parmar nació en Pune, India. Hizo su licenciatura en el Instituto de Tecnología Informática de Pune (Pune Institute of Computer Technology), especializándose en Tecnologías de la Información. Durante sus estudios, se interesó por la inteligencia artificial y el aprendizaje automático a través de cursos en línea abiertos de Andrew Ng y Peter Norvig. Luego se fue a Estados Unidos para hacer una maestría en Ciencias de la Computación en la Universidad del Sur de California, donde investigó problemas de ciencias sociales utilizando métodos de aprendizaje automático bajo la supervisión del profesor Morteza Dehghani.

En 2015, Parmar se unió a Google Research como ingeniera de software, y en 2017 se trasladó a Google Brain como ingeniera de software de investigación. Se reporta que en ese momento era la investigadora más joven y la única sin doctorado en el equipo de Google Brain.

Según la nota de contribución de autores del artículo, diseñó, implementó y depuró innumerables variantes del modelo en el repositorio de código original y en el framework posterior tensor2tensor. Después de la publicación del artículo, continuó impulsando Transformer más allá del lenguaje, participando en investigaciones que extendieron el mecanismo de autoatención a la generación de imágenes y la visión por computadora.

En 2021, Parmar dejó Google y cofundó Adept AI junto con Ashish Vaswani, David Luan, entre otros, como directora de tecnología. Al igual que Vaswani, salió temprano de Adept, y a principios de 2023 cofundó Essential AI con Vaswani, continuando como cofundadora.

Pero no esperó hasta la ronda Serie B y el estatus de unicornio de Essential AI. A finales de 2024, Parmar dejó silenciosamente Essential AI y se unió a Anthropic, anunciando públicamente la noticia en febrero de 2025. Escribió en X: «Hoy es un día como cualquier otro para compartir: me uní a Anthropic en diciembre del año pasado.»

Posteriormente participó en el desarrollo de Claude 3.7 Sonnet, uno de los lanzamientos de modelos más importantes en la historia de Anthropic. Actualmente es miembro del personal técnico (Member of Technical Staff) de Anthropic, centrándose en la investigación de capacidades de vanguardia y el aprendizaje por refuerzo.

Dos coautores que alguna vez fueron inseparables y cofundadores de dos empresas, finalmente tomaron rumbos completamente diferentes: Parmar se retiró discretamente más de un año antes, integrándose silenciosamente en un laboratorio líder; mientras que Vaswani eligió seguir impulsando Essential AI, hasta que esta semana fue recogido por la mano de un competidor.

Jakob Uszkoreit

Uszkoreit nació en una familia de lingüistas. Su padre, Hans Uszkoreit, es un reconocido lingüista computacional. Cuando su hijo propuso la hipótesis de que «solo con el mecanismo de atención es suficiente», incluso su propio padre era escéptico. Uszkoreit obtuvo su doctorado en la Universidad Técnica de Berlín, y más tarde alcanzó el nivel de «Científico Distinguido» (Distinguished Scientist) en Google Brain.

Según la nota de contribución de autores del artículo, fue Uszkoreit quien primero propuso reemplazar la red neuronal recurrente con el mecanismo de autoatención y lideró la validación temprana de esta idea. La semilla de esta hipótesis ya estaba sembrada en su artículo de 2016 sobre el «modelo de atención descomponible» coescrito con Ankur Parikh, Oscar Täckström y Dipanjan Das.

El nombre «Transformer» también fue decidido porque le gustaba la pronunciación de la palabra. El equipo internamente se autodenominaba «Team Transformer», y en las primeras portadas de los documentos de diseño aparecían seis personajes de la serie de animación Transformers.

A finales de 2020, AlphaFold2 de DeepMind demostró que un modelo tipo Transformer podía resolver el plegamiento de proteínas, un problema de nivel «santo grial» en biología. También se dio cuenta cada vez más claramente de que la razón por la que el aprendizaje profundo aún no había cambiado realmente la biología no era la falta de algoritmos, sino la falta de datos. «Casi se convirtió en una obligación moral», recordó más tarde.

Así que en 2021 cofundó Inceptive con Rhiju Das, profesor de bioquímica en la Universidad de Stanford y desarrollador del famoso juego de diseño de ARN Eterna. La sede de la empresa está en Berkeley, y el equipo de investigación permanece en Berlín (él mismo vive en Berlín), con empleados repartidos en Zúrich, Londres, Vancouver y varias ciudades de la costa este de EE. UU.

La idea central de la empresa es hacer experimentos al revés: no tener primero datos y luego entrenar el modelo, sino generar a gran escala nuevos datos experimentales de ARN utilizando robots y humanos, y luego alimentar al modelo para que aprenda.

Inceptive ha recaudado aproximadamente 120 millones de dólares de NVIDIA, a16z, Obvious Ventures, Section 32, entre otros. El avance más reciente ocurrió este mes: a principios de junio, Alnylam Pharmaceuticals, pionera en terapias de interferencia de ARN, firmó una colaboración estratégica con Inceptive para acelerar el diseño de candidatos a fármacos siRNA utilizando los modelos base de Inceptive, con un pago inicial de 30 millones de dólares y un potencial total reportado de aproximadamente 2.000 millones de dólares para toda la colaboración.

Uszkoreit declaró: «La mayoría de los diseños de fármacos aún se basan en prueba y error: probar miles de moléculas y esperar que una tenga éxito. El punto de partida de Inceptive es diferente: la vida sigue leyes extremadamente complejas, y solo la IA puede aprenderlas.»

De los ocho autores, es el único que cambió completamente de campo para dedicarse a la biotecnología, y esto precisamente confirma una profecía que dejó aquel artículo: el potencial del mecanismo de atención va mucho más allá de la traducción automática.

Llion Jones

Jones es galés, se graduó de la Universidad de Birmingham, y se unió a Google como ingeniero de software en 2011, donde trabajó durante más de una década. Es uno de los pocos entre los ocho autores sin doctorado, que aprendió el oficio puramente por intuición de ingeniería.

Según la nota de contribución de autores del artículo, probó una gran cantidad de nuevas variantes del modelo y se encargó del repositorio de código original, la optimización de la eficiencia de inferencia y el trabajo de visualización.

Más tarde recordó ese momento decisivo: «Acabábamos de empezar a intentar eliminar directamente algunas partes del modelo solo para ver cuánto empeoraban los resultados. Sorprendentemente, mejoraron.» Ese fue el momento en que se verificó por primera vez la hipótesis de que «la estructura recurrente era redundante».

En 2023, Jones y David Ha, también ex-Google, fundaron Sakana AI en Tokio. «Sakana» significa «pez» en japonés. Ha es el CEO, Jones el CTO, y el otro cofundador, Ren Ito, es el COO.

Jones reside ahora en Tokio, y se describe en redes sociales como «un investigador de IA galés que vive en Tokio». La línea de investigación de esta empresa tiene un marcado carácter contrario a la corriente: en lugar de acumular poder de cómputo y parámetros sin medida, propone inspirarse en la lógica de la evolución natural, haciendo que un grupo de modelos más pequeños colaboren como un banco de peces. Los resultados representativos de la empresa incluyen Continuous Thought Machine (Máquina de Pensamiento Continuo) y el proyecto «AI Scientist», capaz de llevar a cabo investigaciones de extremo a extremo de forma autónoma.

Recientemente, la empresa lanzó el modelo Sakana Fugu, de vanguardia en rendimiento.

Sakana AI ha recaudado un total de 379 millones de dólares, incluida una ronda Serie B completada en marzo de 2026, con Mitsubishi Electric como uno de sus inversores. En marzo de 2026, la empresa también firmó un acuerdo de colaboración plurianual con el Grupo Financiero Mitsubishi UFJ (MUFG). Este último planea utilizar la tecnología de Sakana para transformar sus sistemas bancarios. Se reporta que esta colaboración podría permitir a la empresa, valorada en unos 1.500 millones de dólares, alcanzar la rentabilidad en un año.

El propio Jones ha expresado en múltiples ocasiones su escepticismo hacia el simple «scaling».

En marzo de 2026, en un evento interno del sector bancario, dijo que la investigación actual en IA enfrenta una realidad incómoda: una gran afluencia de inversiones y talentos que teóricamente debería generar más avances, pero el efecto real puede ser justo el contrario: los inversores presionan por resultados, la competencia presiona por ser el primero, y el espacio para que los investigadores «exploren libremente» se reduce.

Mencionó que Sakana siempre ha mantenido una pequeña parte de libertad de investigación «sin KPI», porque el próximo avance seguramente vendrá de esta inversión a largo plazo sin importar las consecuencias, tal como ocurrió en aquella oficina de Google Brain donde nació Transformer.

También dijo una frase que se ha citado repetidamente: para que una nueva arquitectura realmente reemplace a Transformer, no basta con que sea «mejor», debe ser «obvia e incuestionablemente mejor».

Aidan N. Gomez

Gomez es el más joven de los ocho autores. En el año de la publicación del artículo, era solo un pasante universitario de 20 años en Google Brain, cursando una doble titulación en Ciencias de la Computación y Matemáticas en la Universidad de Toronto.

Según la nota de contribución de autores del artículo, junto con Łukasz Kaiser, dedicó innumerables días y noches a construir los módulos del framework tensor2tensor, reemplazando el repositorio de código temprano y mejorando significativamente la eficiencia de los resultados experimentales y la investigación. «Solo quería entender cómo funcionaba realmente el mecanismo de atención», recordó más tarde, «nunca imaginé que se convertiría en la 'arquitectura de todo'». Después del artículo, fue a la Universidad de Oxford para hacer un doctorado, lo interrumpió para emprender, y finalmente obtuvo el doctorado en 2024. Se puede decir que completó el título mientras emprendía.

En 2019, Gomez, junto con Ivan Zhang y Nick Frosst, fundó Cohere, posicionando a la empresa como un proveedor de servicios de IA para empresas, evitando deliberadamente la costosa competencia de los chatbots de consumo, y enfocándose en privacidad de datos, despliegue localizado y capacidades multilingües. Sus clientes son principalmente grandes empresas y gobiernos de varios países.

En 2023, Gomez fue seleccionado por la revista Time como una de las 100 personas más influyentes en el ámbito de la IA. Él y sus dos cofundadores también ocuparon el primer lugar en la lista de pioneros en tendencias de IA de la revista Maclean's en ese año. En abril de 2025, fue elegido para la junta directiva de la empresa de vehículos eléctricos Rivian.

Este enfoque relativamente «poco atractivo» ha dado buenos resultados financieros: a mediados de 2026, los ingresos recurrentes anualizados de Cohere superan los 200 millones de dólares, con un crecimiento de 6 veces en el último año, un margen bruto de aproximadamente el 70%, una financiación acumulada cercana a los 1.700 millones de dólares y una valoración de unos 7.000 millones. En agosto de 2025, la empresa contrató a Francois Chadwick, quien participó en la salida a bolsa de Uber, como su primer CFO. Ya se ha abierto una ventana para que los empleados vendan acciones en el mercado secundario. El propio Gomez ha dicho en repetidas ocasiones que la IPO está «cerca», pero hasta ahora la empresa no ha presentado el prospecto ante los reguladores.

Gomez se ha convertido cada vez más en un portavoz de la IA en términos geopolíticos. Esta misma semana, escribió un artículo en la revista Fortune pidiendo a los países que aborden el problema de la «soberanía digital».

El artículo menciona directamente el reciente endurecimiento de los permisos de acceso a los modelos de Anthropic, advirtiendo a los países que no pueden «alquilar» su futuro a unas pocas empresas tecnológicas centralizadas, y propone construir un ecosistema verdaderamente diverso donde los países puedan depender de diferentes proveedores de IA, manteniendo al mismo tiempo sus propios valores, idiomas y sistemas legales.

También ha declarado públicamente que las preocupaciones externas sobre el riesgo existencial de tipo «Apocalipsis de la IA» han sido exageradas. El riesgo real que más le preocupa es la desinformación amplificada automáticamente en las redes sociales. Gomez ya no habla solo del modelo en sí, sino de quién tiene derecho a decidir qué tipo de IA utiliza el mundo.

Łukasz Kaiser

Kaiser es polaco. Su formación académica inicial fue en ciencias de la computación teórica, como lógica, teoría de autómatas, teoría de modelos algorítmicos y teoría de juegos. Obtuvo una doble maestría en matemáticas y ciencias de la computación en la Universidad de Wrocław, y completó su doctorado en la Universidad Técnica de Aquisgrán (RWTH Aachen). Posteriormente, tuvo una plaza de profesor titular en el Centro Nacional de Investigación Científica de Francia (CNRS) y en la Universidad París VII, centrándose en la investigación pura en lógica y teoría de autómatas.

Más tarde, se orientó hacia la aplicación, trabajando durante casi 8 años en Google Brain, donde también fue coautor de TensorFlow y publicó artículos tempranos como «¿Puede la memoria activa reemplazar la atención?» en colaboración con Samy Bengio, y «Algoritmos de aprendizaje de Neural GPU» junto con Ilya Sutskever.

Según la nota de contribución de autores del artículo, junto con Aidan N. Gomez, dedicó innumerables días y noches a construir el framework tensor2tensor, mejorando significativamente la eficiencia de los resultados experimentales y la investigación.

De los ocho autores, es el único que no emprendió y se quedó siempre en un gran laboratorio haciendo investigación pura.

En 2021 se unió a OpenAI, antes de que ChatGPT fuera lanzado. En OpenAI, participó en el desarrollo de Codex (que más tarde se convirtió en la base técnica de GitHub Copilot) y en el benchmark de programación HumanEval asociado, así como en la investigación del conjunto de datos de problemas matemáticos GSM8K. Este trabajo mostró tempranamente que permitir que el modelo «piense un poco más y muestree varias veces» durante la inferencia podía mejorar significativamente la precisión, lo que fue el germen del paradigma de los modelos de razonamiento posteriores.

También es uno de los autores firmantes del informe técnico de GPT-4, y más tarde se convirtió en un contribuyente central del primer modelo de razonamiento de OpenAI, o1 (lanzado en septiembre de 2024), considerado un rol de «responsable de investigación». Continuó contribuyendo hasta o3 y los paradigmas de razonamiento posteriores, hasta la serie actual GPT-5.

Recientemente, en el podcast MAD presentado por Matt Turck, habló sobre que Transformer ha sido matemáticamente demostrado como capaz de resolver cualquier problema, siempre que se permita que el modelo genere suficientes pasos de razonamiento intermedios. En cierto sentido, esto es una anotación tardía y más precisa de aquel artículo de hace nueve años.

Illia Polosukhin

Polosukhin es de Járkov, Ucrania. Su licenciatura fue en matemáticas aplicadas, y fue campeón del Concurso Internacional de Programación Universitaria (ICPC). Según él mismo recuerda, después de ver la película «Matrix» a los diez años, desarrolló un interés casi obsesivo por la inteligencia artificial. En 2014, se unió a Google, participando en investigaciones relacionadas con TensorFlow, y también trabajó en comprensión de lectura automática y sistemas de preguntas y respuestas.

Según la nota de contribución de autores del artículo, junto con Ashish Vaswani, diseñó e implementó el modelo Transformer original. Su parte consistió principalmente en validar la efectividad de esta arquitectura en tareas de traducción automática.

Después de la publicación del artículo, dejó Google en 2017 y cofundó con Alexander Skidanov una empresa de inteligencia artificial inicialmente llamada NEAR.AI. Pero pronto se dieron cuenta de que construir una infraestructura descentralizada podría ser más interesante que hacer modelos, por lo que alrededor de 2018 la empresa se transformó en el proyecto blockchain NEAR Protocol.

NEAR adoptó una tecnología de fragmentación llamada Nightshade y proporciona una red de capa 2 compatible con Ethereum a través de Aurora. La red principal se lanzó oficialmente en 2020, y hasta ahora ha recaudado más de 530 millones de dólares de a16z, Coinbase, Tiger Global Management, Hashed, Dragonfly Capital, entre otros.

Hoy, Polosukhin está tratando de volver a unir sus dos identidades originales. En marzo de 2026, dijo a los medios que «los futuros usuarios de blockchain serán agentes de IA, no humanos», y posicionó a NEAR como la «capa de liquidación» de la economía de agentes.

En abril del mismo año, pidió públicamente un marco regulatorio más completo para hacer frente a los agentes de IA autónomos. Considera que las instituciones y sistemas actuales no están preparados para manejar los problemas de atribución de responsabilidad y riesgo sistémico que estos sistemas conllevan, y abogó por mecanismos de rendición de cuentas más claros y una supervisión de tipo «humano en el circuito».

Actualmente reside en Portugal. Entre las dos identidades de «haber escrito un artículo fundacional sobre LLM» y «dirigir una empresa blockchain valorada en miles de millones de dólares», probablemente solo él en el mundo pueda tener ambas.

Ocho caminos, continúan explorando

En marzo de 2024, en la conferencia GTC de NVIDIA, siete de los ocho autores (Niki Parmar estuvo ausente por razones de fuerza mayor) aparecieron juntos por primera vez como grupo, en una entrevista con Jensen Huang.

Huang dijo: «Todo lo que disfrutamos hoy se remonta a ese momento.»

Al final de la conversación, regaló a cada uno una placa conmemorativa firmada de la supercomputadora DGX-1 de NVIDIA con la inscripción «Ustedes cambiaron el mundo (You transformed the world)». En noviembre del mismo año, la Fundación C&C de NEC de Japón otorgó el premio C&C de ese año al «equipo Transformer» formado por estas ocho personas, compartiendo el escenario con tres ingenieros veteranos que investigan la transmisión por cables de fibra óptica submarinos transoceánicos. Constructores de infraestructura de dos tipos completamente diferentes fueron colocados en el mismo premio.

Nueve años después, estas ocho trayectorias vitales se han dispersado hasta puntos donde casi no se cruzan: el sector de servicios empresariales en Silicon Valley, el laboratorio de algoritmos evolutivos en Tokio, la empresa de biología molecular en Berlín, el protocolo blockchain en Portugal, y los principales laboratorios de IA que siguen reconfigurándose esta semana.

Pero si se juntan las palabras que han dicho a lo largo de estos años, se encuentra un juicio común que se repite: nadie cree realmente que Transformer sea el punto final.

Aidan N. Gomez dijo que el mundo necesita algo mejor que Transformer; Llion Jones dijo que la próxima arquitectura debe ser «obvia e incuestionablemente mejor» para reemplazarlo; Łukasz Kaiser sigue utilizando el lenguaje matemático para intentar explicar hasta dónde puede llevar a la humanidad esta arquitectura nacida hace nueve años.

Quizás este sea el legado más perdurable de este artículo: sus ocho autores, dispersos por todo el mundo, pero ninguno ha dejado de buscar la próxima respuesta.

Enlace original

Haz clic para conocer los puestos de trabajo en律动BlockBeats

Bienvenido a unirte a la comunidad oficial de律动 BlockBeats:

Grupo de suscripción de Telegram: https://t.me/theblockbeats

Grupo de discusión de Telegram: https://t.me/BlockBeats_App

Cuenta oficial de Twitter: https://twitter.com/BlockBeatsAsia

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
TradFiCFDGoldMaster
2,22M Popularidad
#
SaylorHintsAtMoreBTC
8,5M Popularidad
#
IsraelStrikesIranBTCPlunges
66,32K Popularidad
#
PredictWorldCupShare20000U
474,29K Popularidad
#
SolanaEcosystemANSEMSurges
21,96M Popularidad

Fijado

Ocho autores de Transformer nueve años después: Google no retuvo a ninguno.

«El origen de todo»: Ocho googlers que no se dedicaban a lo suyo

Ashish Vaswani

Noam Shazeer

Niki Parmar

Jakob Uszkoreit

Llion Jones

Aidan N. Gomez

Łukasz Kaiser

Illia Polosukhin

Ocho caminos, continúan explorando

Temas de actualidad

TradFiCFDGoldMaster

SaylorHintsAtMoreBTC

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Fijado