Вісім співавторів Transformer через дев'ять років: Google не втримав жодного.

Оригінальна назва: «Вісім батьків трансформера: де вони зараз?»
Оригінальне джерело: Machine Heart

6 червня Ноам Шазір, один із співавторів статті про Transformer, оголосив у X про звільнення та приєднання до OpenAI. Через два дні лауреат Нобелівської премії з хімії 2024 року та керівник команди AlphaFold Джон Джампер також оголосив про звільнення з Google DeepMind, його напрямок — Anthropic.

Дві новини одна за одною викликали значну реакцію на ринку капіталу: акції материнської компанії Google Alphabet впали більш ніж на 7%, а ринкова капіталізація втратила понад 300 мільярдів доларів. Багато аналітичних агентств пов'язують це падіння з «відтоком талантів». Аналітик D.A. Davidson Гіл Лурія прямо сказав, що Шазір перейшов до OpenAI, а Джампер — до Anthropic, і їхні звільнення одне за одним змусили ринок хвилюватися, що Google програє в боротьбі за таланти в сфері ШІ.

Особливо вартим уваги є це звільнення Шазіра – це вже вдруге він залишає Google.

У 2021 році він пішов через незадоволення тим, що компанія не хотіла публічно випускати чат-бота, який він особисто розробляв, і заснував Character.AI; у серпні 2024 року Google викупив ліцензію на технологію Character.AI приблизно за 2,7 мільярда доларів, і запросив його назад у DeepMind, призначивши віце-президентом з інженерії проєкту Gemini, щоб спільно з Джеффом Діном керувати цим проєктом. Менш ніж через два роки він все одно пішов, цього разу до заклятого ворога OpenAI.

Таким чином, усі вісім співавторів статті «Attention Is All You Need», опублікованої дев'ять років тому, вже покинули Google.

Користувач Tyler Maran створив діаграму, на якій зобразив їхні поточні місця призначення, і ця діаграма активно поширювалася в соціальних мережах.

Однак ця діаграма, можливо, скоро застаріє. За останні два дні на ринку з'явилися чутки, що Nvidia тихо переманює основну команду Essential AI, включно з одним із авторів статті про Transformer, співзасновником і CEO Essential AI Ашішем Васвані. На момент публікації ні Nvidia, ні Essential AI офіційно не відреагували на цю новину.

Скориставшись цією нагодою, ми можемо повністю переглянути, як за дев'ять років змінилися біографії цих восьми людей, яких називають «батьками Transformer», і куди вони насправді пішли.

Слід зазначити, що порядок авторів статті «Attention Is All You Need» є випадковим. У виносці до статті чітко зазначено: усі автори зробили рівний внесок, порядок випадковий, тому не існує так званого «першого автора» чи «відповідального автора». У цій статті ми представлятимемо цих вісьмох людей відповідно до оригінального порядку підписів у статті.

«Походження всього»: вісім людей з Google, які не займалися своєю справою

Щоб зрозуміти, куди вони пішли сьогодні, спершу повернемося до 2017 року. Тоді основним підходом у машинному перекладі були рекурентні нейронні мережі (RNN), які обробляли речення слово за словом по порядку, як черга на одній смузі, не допускаючи паралельних обчислень, що робило навчання повільним і дорогим.

Вісім людей з Google Brain вирішили спробувати майже ризиковану ідею: повністю відмовитися від рекурентної структури, залишивши лише «механізм уваги», дозволивши моделі бачити все речення одразу і самостійно визначати, яке слово потребує особливої уваги. Назва статті «Attention Is All You Need» була натхненна піснею The Beatles «All You Need Is Love», і згодом стала шаблоном для багатьох заголовків статей.

У статті є опис внеску авторів, де коротко записано, що саме зробила кожна людина:

· Jakob Uszkoreit першим запропонував замінити рекурентну структуру самоувагою та очолив ранню перевірку цієї ідеї;

· Ashish Vaswani разом з Illia Polosukhin спроєктували та реалізували початкову модель Transformer, беручи участь майже в усіх аспектах проєкту;

· Noam Shazeer запропонував масштабовану точкову увагу, механізм багатоголової уваги та безпараметричний метод позиціонування, будучи ще однією людиною, яка брала участь майже в усьому;

· Niki Parmar спроєктувала, реалізувала та налагодила незліченну кількість варіантів моделі в початковому коді та пізнішому фреймворку tensor2tensor;

· Llion Jones також протестував багато нових варіантів моделі та відповідав за початковий код, оптимізацію швидкості висновку та візуалізацію;

· Łukasz Kaiser та Aidan N. Gomez витратили безліч днів і ночей на створення модулів фреймворку tensor2tensor, замінивши ранній код та значно підвищивши ефективність експериментів і досліджень.

Цей опис також опосередковано розкриває деталь: хоча порядок підписів у статті випадковий, Uszkoreit, Vaswani, Polosukhin і Shazeer, очевидно, відігравали центральнішу роль у архітектурі, тоді як Parmar, Jones, Kaiser і Gomez взяли на себе інженерну реалізацію та системне будівництво – це стало раннім свідченням відмінностей у характерах і спеціалізаціях, які згодом привели їх до різних шляхів.

Сама назва «Transformer» також має цікаву історію. Uszkoreit сподобалося звучання цього слова, тому команда всередині називала себе «Team Transformer», а на обкладинці раннього дизайнерського документа були зображені шість персонажів з мультфільму «Трансформери».

Від моменту публікації стаття була процитована понад 260 000 разів, що робить її однією з найбільш цитованих статей 21-го століття.

Ashish Vaswani

Vaswani народився в 1986 році, індієць. У 2002 році здобув ступінь бакалавра комп'ютерних наук в Індійському технологічному інституті Біла (BIT Mesra), потім поїхав до США, де здобув ступінь доктора філософії в Університеті Південної Каліфорнії під керівництвом Девіда Чанга, досліджуючи статистичний машинний переклад і моделювання мови на основі нейронних мереж. Після завершення докторської програми він два роки працював комп'ютерним науковцем в Інституті інформаційних наук Університету Південної Каліфорнії, а в 2016 році приєднався до Google Brain як дослідник-науковець, працюючи там до 2021 року.

Згідно з описом внеску в статтю, Vaswani разом з Illia Polosukhin спроєктували та реалізували початкову модель Transformer, будучи однією з ключових осіб, які «брали участь майже в усіх аспектах проєкту».

Після звільнення з Google Vaswani в 2021 році разом з Niki Parmar і колишнім віце-президентом з інженерії OpenAI Девідом Луаном заснував Adept AI, де обійняв посаду головного науковця, з метою створення «моделей поведінки», здатних автономно виконувати дії в будь-якому програмному забезпеченні.

Adept свого часу залучив понад 400 мільйонів доларів інвестицій, оцінювався приблизно в 1 мільярд доларів, але продукт так і не був запущений, а всередині команди виникли розбіжності. Vaswani і Parmar рано вирішили вийти – його термін на посаді головного науковця в Adept закінчився в листопаді 2022 року.

На початку 2023 року Vaswani і Parmar знову об'єдналися, щоб заснувати Essential AI, де він став CEO. Компанія отримала стратегічні інвестиції від Google, Nvidia та AMD: початковий раунд на 8,3 мільйона доларів очолив Thrive Capital, а раунд A на 56,5 мільйона доларів наприкінці 2023 року очолив March Capital, з участю Google, Nvidia, AMD, KB Investment, Franklin Templeton та інших.

На початку 2026 року компанія завершила раунд B на 175 мільйонів доларів під керівництвом Lightspeed Venture Partners з участю Thrive Capital, досягнувши оцінки в 1 мільярд доларів і офіційно ставши єдинорогом.

Наприкінці 2025 року компанія випустила свою першу серію відкритих моделей Rnj-1 (названа на честь індійського математика Рамануджана).

Однак за останні два дні ситуація різко змінилася. За повідомленнями, Nvidia вербує основну команду Essential AI, включно з самим Vaswani, який у майбутньому братиме участь у розробці відкритої моделі Nvidia Nemotron.

Джерела розповідають, що причина досить прагматична: Essential AI стикається з труднощами у залученні фінансування, і переманювання Vaswani та його команди з табору конкурента Nvidia AMD (AMD була одним із ранніх стратегічних інвесторів Essential AI, і компанія довгий час покладалася на графічні процесори AMD) сама по собі є вигідною угодою.

Кілька дослідників Essential AI (включно з Алоком Тріпаті та Саурабхом Сріваставою) вже оновили свої профілі в LinkedIn, вказуючи, що приєдналися до Nvidia. Однак наразі ні Nvidia, ні Essential AI офіційно не підтвердили цю новину.

Noam Shazeer

Shazeer народився в 1976 році у Філадельфії, є ортодоксальним євреєм; його батько Дов Шазір був інженером і вчителем математики, а сестра отримала звання рабина в Єврейському коледжі. У юності він демонстрував видатні здібності, у 1994 році як член команди США брав участь у Міжнародній математичній олімпіаді та здобув золоту медаль з максимальним балом, після чого вступив до Університету Дьюка на математику та комп'ютерні науки, отримавши стипендію імені Енгієра Б. Дьюка, а також переміг у математичному конкурсі Putnam.

У 2000 році Shazeer приєднався до Google, його ранньою відомою роботою стало виправлення функції автовиправлення орфографії в пошуку Google.

Згідно з описом внеску в статтю про Transformer, він запропонував масштабовану точкову увагу, механізм багатоголової уваги та безпараметричний метод позиціонування, будучи, окрім Vaswani та Polosukhin, людиною, яка «брала участь майже в усіх деталях».

Після співавторства статті про Transformer у 2017 році він разом з колегою Даніелем де Фрейташем створив чат-бота Meena, але Google з обережності не випустив його публічно. У 2021 році вони вирішили піти та заснувати Character.AI, який свого часу залучив понад 150 мільйонів доларів від a16z та інших інвесторів, ставши популярним додатком для рольового спілкування.

У серпні 2024 року стався поворот: Google уклав ліцензійну угоду з Character.AI, сума якої, за повідомленнями, сягала 2,7 мільярда доларів, і Shazeer разом з де Фрейташем та невеликою групою колег повернулися до Google DeepMind. Його призначили віце-президентом з інженерії, і він спільно з Джеффом Діном та Оріолом Вінялсом керував проєктом Gemini.

Оскільки він особисто володів приблизно 30-40% акцій Character.AI, ця угода дозволила йому виручити, за оцінками, від 750 мільйонів до 1 мільярда доларів. У 2026 році його обрали членом Національної інженерної академії США, і його біографія виглядала як на піку.

Але лише через кілька місяців він знову вирішив піти, цього разу до OpenAI, де, за повідомленнями, очолить напрямок, який називається «архітектурні дослідження», якраз у період, коли OpenAI готується до IPO (компанія 8 червня подала конфіденційний документ S-1 до Комісії з цінних паперів США, з оцінкою до 852 мільярдів доларів).

CEO OpenAI Сем Альтман рідко публічно висловлювався: «Він один із людей, з якими я найбільше хотів би працювати з першого дня заснування OpenAI», додавши, що це наймання «планувалося цілих десять років».

Для Google це була невдала «спроба викупу»: людина, яку вони повернули за 2,7 мільярда доларів два роки тому, тепер пішла до головного конкурента, що стало однією з безпосередніх причин різкого падіння акцій Google цього тижня.

Niki Parmar

Parmar народилася в індійському місті Пуна, здобула ступінь бакалавра в Інституті комп'ютерних технологій Пуни (Pune Institute of Computer Technology) за спеціальністю «Інформаційні технології». Під час навчання вона зацікавилася штучним інтелектом та машинним навчанням завдяки онлайн-курсам Ендрю Нг та Пітера Норвіга, після чого поїхала до США, де здобула ступінь магістра комп'ютерних наук в Університеті Південної Каліфорнії, досліджуючи соціальні науки за допомогою методів машинного навчання під керівництвом професора Мортези Дехгані.

У 2015 році Parmar приєдналася до Google Research як інженер-програміст, а в 2017 році перейшла до Google Brain як дослідницький інженер-програміст – за повідомленнями, вона була наймолодшою та єдиною дослідницею без докторського ступеня в команді Google Brain на той час.

Згідно з описом внеску в статтю, вона спроєктувала, реалізувала та налагодила незліченну кількість варіантів моделі в початковому коді та пізнішому фреймворку tensor2tensor. Після публікації статті вона продовжила розширювати Transformer за межі мови, беручи участь у дослідженнях із розширення механізму самоуваги на генерацію зображень та комп'ютерний зір.

У 2021 році Parmar пішла з Google і разом з Ашішем Васвані та Девідом Луаном заснувала Adept AI, де обійняла посаду головного технологічного директора. Як і Vaswani, вона рано вийшла з Adept, а на початку 2023 року разом з Васвані заснувала Essential AI, продовжуючи виступати співзасновником.

Але вона не дочекалася пізнішого раунду B та статусу єдинорога Essential AI. Наприкінці 2024 року Parmar тихо пішла з Essential AI і приєдналася до Anthropic, оголосивши про це публічно в лютому 2025 року. Вона написала в X: «Сьогодні, як і завжди, слушний день, щоб поділитися: я приєдналася до Anthropic у грудні минулого року».

Після цього вона взяла участь у розробці Claude 3.7 Sonnet – одного з найважливіших релізів моделей в історії Anthropic. Наразі вона є членом технічної команди (Member of Technical Staff) Anthropic, зосереджуючись на дослідженнях передових можливостей та напрямку навчання з підкріпленням.

Два колись нерозлучні співавтори, двічі партнери у створенні стартапів, зрештою пішли зовсім різними шляхами: Parmar більш ніж за рік тихо вийшла, спокійно влившись у провідну лабораторію; тоді як Vaswani вирішив продовжувати розвивати Essential AI, поки цього тижня конкурент не простягнув руку.

Jakob Uszkoreit

Uszkoreit народився в родині лінгвістів. Його батько Ганс Ушкорейт є відомим комп'ютерним лінгвістом. Коли син висунув гіпотезу, що «одного механізму уваги достатньо», навіть батько був скептичним. Uszkoreit здобув ступінь доктора філософії в Берлінському технічному університеті, а згодом досяг рівня «видатного науковця» (Distinguished Scientist) у Google Brain.

Згідно з описом внеску в статтю, саме Uszkoreit першим запропонував замінити рекурентні нейронні мережі механізмом самоуваги та очолив ранню перевірку цієї ідеї – насіння цієї гіпотези насправді було закладено ще в його статті «Розкладена модель уваги» 2016 року, співавторами якої були Анкур Парік, Оскар Такстрьом та Діпанджан Дас.

Назва «Transformer» також була обрана тому, що йому сподобалося звучання цього слова; команда всередині називала себе «Team Transformer», а на обкладинці раннього дизайнерського документа були зображені шість персонажів з мультфільму «Трансформери».

Наприкінці 2020 року AlphaFold2 від DeepMind довів, що модель, подібна до Transformer, може вирішувати такі складні завдання, як згортання білків – «святий Грааль біології». Він також все більше усвідомлював, що глибоке навчання ще не змогло по-справжньому змінити біологію не через брак алгоритмів, а через брак даних. «Це майже стало моральним обов'язком», – згадував він пізніше.

Тому в 2021 році він разом із професором біохімії Стенфордського університету та розробником відомої гри з дизайну РНК Eterna Раджі Дасом заснував Inceptive, штаб-квартира якої знаходиться в Берклі, а дослідницька команда залишилася в Берліні – він сам живе в Берліні, а співробітники також розподілені по Цюриху, Лондону, Ванкуверу та кількох містах на східному узбережжі США.

Основна ідея компанії полягає в тому, щоб зробити навпаки: не спочатку мати дані, а потім тренувати модель, а за допомогою роботів і людей масово генерувати нові експериментальні дані РНК, а потім подавати їх моделі для навчання.

Inceptive залучив приблизно 120 мільйонів доларів від Nvidia, a16z, Obvious Ventures, Section 32 та інших інвесторів. Останній прогрес стався цього місяця: на початку червня компанія-піонер терапії інтерференції РНК Alnylam Pharmaceuticals підписала стратегічне партнерство з Inceptive, щоб прискорити дизайн кандидатних препаратів siRNA за допомогою базових моделей Inceptive. Перший внесок склав 30 мільйонів доларів, а загальна потенційна вартість угоди, за повідомленнями, може досягати приблизно 2 мільярдів доларів.

Uszkoreit заявив у своїй заяві: «Більшість розробок ліків все ще ґрунтується на спробах і помилках – тестування тисяч молекул у надії, що одна з них виявиться успішною. Inceptive починає з іншого: життя підпорядковується надзвичайно складним законам, які здатний вивчити лише ШІ.»

Серед восьми авторів він єдиний, хто повністю перейшов у біотехнології, і це якраз підтверджує пророцтво, зроблене в тій статті роки тому: потенціал механізму уваги далеко не обмежується машинним перекладом.

Llion Jones

Jones є валлійцем, випускник Бірмінгемського університету. У 2011 році він приєднався до Google як інженер-програміст і пропрацював там понад десять років, будучи одним із небагатьох авторів без докторського ступеня, які покладалися на інженерну інтуїцію.

Згідно з описом внеску в статтю, він протестував багато нових варіантів моделі та відповідав за початковий код, оптимізацію швидкості висновку та візуалізацію.

Пізніше він згадував той вирішальний момент: «Ми тоді почали просто вирізати деякі частини моделі, щоб подивитися, наскільки погіршиться результат. На наш подив, він покращився.» Саме тоді вперше підтвердилося припущення, що «рекурентна структура є зайвою».

У 2023 році Jones разом із Девідом Ха, також вихідцем із Google, заснував у Токіо Sakana AI. «Sakana» японською означає «риба». Ха став CEO, Джонс – CTO, а третій співзасновник компанії Рен Іто – COO.

Зараз Джонс проживає в Токіо і називає себе в соціальних мережах «валлійським дослідником ШІ, який живе в Токіо». Дослідницький напрямок цієї компанії має яскраво виражений антитрендовий характер: замість того, щоб сліпо нарощувати обчислювальні потужності та параметри, краще запозичити логіку природної еволюції, дозволяючи групі менших моделей співпрацювати, як зграя риб. Серед відомих результатів досліджень компанії – Continuous Thought Machine (Безперервна мисляча машина) та проєкт «AI Scientist», здатний самостійно проводити наскрізні дослідження.

Нещодавно компанія випустила модель Sakana Fugu з передовими характеристиками.

Загальний обсяг фінансування Sakana AI досяг 379 мільйонів доларів, включно з раундом B, завершеним у березні 2026 року. Одним з інвесторів є Mitsubishi Electric. У березні 2026 року компанія також підписала багаторічну угоду про співпрацю з Mitsubishi UFJ Financial Group (MUFG). Остання планує використовувати технології Sakana для модернізації своїх банківських систем, і, за повідомленнями, ця угода дозволить компанії з оцінкою приблизно 1,5 мільярда доларів досягти прибутковості протягом року.

Сам Джонс у різних випадках висловлював сумнів щодо простого «скейлінгу».

У березні 2026 року на внутрішньому заході банківської сфери він сказав, що сучасні дослідження ШІ стикаються з незручною реальністю: величезний приплив інвестицій і талантів теоретично мав би стимулювати більше проривів, але на практиці ефект може бути протилежним: інвестори вимагають результатів, конкуренція змушує поспішати з першими релізами, а простір для «вільного пошуку» дослідників натомість звужується.

Він зазначив, що Sakana завжди зберігала невелику частину дослідницької свободи «без KPI», оскільки наступний прорив обов'язково виникне з таких довгострокових, безрозсудних інвестицій – саме так у тому офісі Google Brain народився Transformer.

Він також сказав слова, які часто цитують: щоб нова архітектура справді замінила Transformer, недостатньо просто бути «кращою», вона повинна бути «очевидно, безсумнівно кращою».

Aidan N. Gomez

Gomez є наймолодшим серед восьми авторів. На момент публікації статті він був 20-річним студентом-стажером у Google Brain, який навчався в Університеті Торонто на подвійній спеціальності «Комп'ютерні науки та математика».

Згідно з описом внеску в статтю, він разом з Łukasz Kaiser витратив безліч днів і ночей на створення модулів фреймворку tensor2tensor, замінюючи ранній код та значно підвищуючи ефективність експериментів і досліджень. «Я просто хотів зрозуміти, як насправді працює механізм уваги,» – згадував він пізніше, – «я ніколи не думав, що це стане "архітектурою всього".» Після статті він вступив до докторантури Оксфордського університету, тимчасово перервав навчання, щоб зайнятися бізнесом, і лише у 2024 році офіційно здобув ступінь доктора філософії – можна сказати, що він закінчив навчання, одночасно розвиваючи свій бізнес.

У 2019 році Gomez разом з Іваном Чжаном і Ніком Фростом заснували Cohere, позиціонуючи компанію як постачальника ШІ для корпоративного сектору, свідомо уникаючи гонки витрат на споживчих чат-ботів. Основний акцент робився на приватність даних, локальне розгортання та багатомовність, а клієнтами стали великі корпорації та уряди різних країн.

У 2023 році Gomez увійшов до списку 100 найвпливовіших людей у сфері ШІ за версією Time, а разом з двома співзасновниками очолив рейтинг «Трендсетери ШІ» журналу Maclean's за той рік; у квітні 2025 року його обрали до ради директорів компанії з виробництва електромобілів Rivian.

Цей відносно «непривабливий» підхід натомість привів компанію до непоганих фінансових показників: станом на середину 2026 року річний регулярний дохід Cohere перевищив 200 мільйонів доларів, збільшившись у 6 разів за останній рік, з валовою маржею близько 70%. Загальний обсяг залученого фінансування наближається до 1,7 мільярда доларів, а оцінка компанії становить приблизно 7 мільярдів доларів. У серпні 2025 року компанія найняла свого першого фінансового директора Франсуа Чедвіка, який брав участь в IPO Uber, а вікно для продажу акцій співробітниками на вторинному ринку також було відкрито один раз. Сам Гомес неодноразово заявляв, що IPO «вже скоро», але наразі компанія не подала проспект емісії до регуляторних органів.

Останніми роками Gomez все більше стає речником ШІ в геополітичному сенсі. Цього тижня він написав статтю для Fortune, закликаючи країни серйозно поставитися до питання «цифрового суверенітету».

У статті він прямо згадав нещодавнє обмеження доступу до моделі Anthropic, попередивши країни, що вони не можуть «здавати в оренду» своє майбутнє кільком централізованим технологічним гігантам, і запропонував створити справді різноманітну екосистему, де країни можуть покладатися на різних постачальників ШІ, зберігаючи при цьому свої цінності, мову та правову систему.

Він також публічно заявляв, що побоювання зовнішнього світу щодо «судного дня ШІ» перебільшені, і більше турбується про реальні ризики, такі як автоматизоване поширення дезінформації в соціальних мережах. Сьогодні Gomez говорить не лише про саму модель, а й про те, хто має право визначати, який ШІ використовуватиме весь світ.

Łukasz Kaiser

Kaiser є поляком. Його початкова академічна підготовка була в галузі теоретичної інформатики, включаючи логіку, теорію автоматів, алгоритмічну теорію моделей та теорію ігор: він здобув подвійний ступінь магістра з математики та комп'ютерних наук в Університеті Вроцлава, а потім завершив докторантуру в RWTH Aachen University. Згодом він отримав постійну посаду в Національному центрі наукових досліджень Франції (CNRS) та Університеті Париж VII, займаючись суто теоретичними дослідженнями логіки та теорії автоматів.

Пізніше він перейшов до прикладних досліджень, пропрацювавши в Google Brain майже 8 років, ставши також співавтором TensorFlow, та опублікувавши ранні статті, такі як «Чи може активна пам'ять замінити увагу?» у співпраці з Самі Бенджіо, та «Нейронний графічний процесор для вивчення алгоритмів» разом з Іллею Суцкевером.

Згідно з описом внеску в статтю, він разом з Aidan N. Gomez витратив безліч днів і ночей на створення фреймворку tensor2tensor, значно підвищивши ефективність експериментів і досліджень.

Серед вісьмох авторів він єдиний, хто не заснував власний бізнес, а залишився в великій лабораторії, займаючись суто дослідницькою роботою.

У 2021 році він приєднався до OpenAI, коли ChatGPT ще не був випущений. В OpenAI він брав участь у розробці Codex (який пізніше став технічною основою GitHub Copilot) та супутнього бенчмарку HumanEval для програмування, а також у дослідженні набору даних математичних задач GSM8K. Ця робота рано продемонструвала, що «дозволяючи моделі трохи більше подумати під час висновку та зробити кілька виброк» можна значно підвищити точність – це стало прообразом пізнішої парадигми моделей міркування.

Він також є одним із підписаних авторів технічного звіту GPT-4, а пізніше став ключовим учасником першої моделі міркування OpenAI o1 (випущеної у вересні 2024 року), вважаючись особою рівня «керівника досліджень», і продовжив цю роботу аж до o3 та новіших парадигм міркування, аж до сьогоднішньої серії GPT-5.

Нещодавно він у подкасті MAD Podcast, який веде Метт Терк, розповів, що математично доведено, що Transformer може вирішити будь-яку проблему, якщо дозволити моделі генерувати достатню кількість проміжних кроків міркування. Певною мірою це запізнілий, більш точний коментар до тієї дев'ятирічної статті.

Illia Polosukhin

Polosukhin родом з Харкова, Україна. Здобув ступінь бакалавра з прикладної математики, а також був чемпіоном Міжнародної студентської олімпіади з програмування (ICPC). За його власними спогадами, після перегляду фільму «Матриця» у десятирічному віці він зацікавився штучним інтелектом майже одержимо. У 2014 році він приєднався до Google, брав участь у дослідницькій роботі, пов'язаній з TensorFlow, а також проводив дослідження в галузі машинного розуміння прочитаного та систем запитань-відповідей.

Згідно з описом внеску в статтю, він разом з Ashish Vaswani спроєктували та реалізували початкову модель Transformer, причому його частина роботи полягала в основному в перевірці ефективності цієї архітектури на завданнях машинного перекладу.

Після публікації статті в 2017 році він пішов з Google і разом з Олександром Скідановим заснував компанію, яка спочатку називалася NEAR.AI і займалася штучним інтелектом. Але незабаром вони зрозуміли, що створення децентралізованої інфраструктури може бути цікавішим, ніж розробка моделей, тому приблизно в 2018 році компанія трансформувалася в блокчейн-проєкт NEAR Protocol.

NEAR використовує технологію шардінгу під назвою Nightshade та забезпечує сумісний з Ethereum другий рівень через Aurora. Основна мережа була запущена в 2020 році, і на сьогоднішній день проєкт залучив понад 530 мільйонів доларів від a16z, Coinbase, Tiger Global Management, Hashed, Dragonfly Capital та інших інвесторів.

Сьогоднішній Polosukhin намагається знову з'єднати дві свої початкові ідентичності: у березні 2026 року він заявив ЗМІ, що «майбутні користувачі блокчейну будуть агентами ШІ, а не людьми», і позиціонує NEAR як «розрахунковий рівень» для економіки агентів.

Того ж року, у квітні, він публічно закликав створити більш досконалу нормативну базу для роботи з автономними агентами ШІ; він вважає, що існуючі інститути та системи ще не готові впоратися з питаннями відповідальності та системного ризику, які породжують такі системи, і закликає до створення чіткіших механізмів підзвітності та нагляду за принципом «людина в циклі».

Наразі він проживає в Португалії. Людина, яка одночасно поєднує дві ідентичності – «написала основоположну статтю про великі мовні моделі» та «керує блокчейн-компанією вартістю в десятки мільярдів доларів» – єдина в усьому світі.

Вісім шляхів, продовження пошуку

У березні 2024 року на конференції GTC від Nvidia семеро з восьми авторів (Niki Parmar була відсутня з поважних причин) вперше виступили разом як група, взявши участь в інтерв'ю з Дженсеном Хуаном.

Хуан сказав: «Все, чим ми насолоджуємося сьогодні, можна простежити до того моменту.»

Наприкінці розмови він подарував кожному суперкомп'ютер DGX-1 з автографом Nvidia, на якому було вигравірувано фразу «Ви змінили світ (You transformed the world)». У листопаді того ж року Фонд C&C при NEC Japan вручив премію C&C того року «Команді Transformer» з восьми осіб, і разом з ними нагороду отримали троє досвідчених інженерів, які досліджували технології трансатлантичних підводних оптичних кабелів. Будівельники інфраструктури з двох абсолютно різних сфер були відзначені однією нагородою.

Минуло дев'ять років, і ці вісім життєвих шляхів розійшлися настільки, що майже не перетинаються: корпоративні послуги в Кремнієвій долині, лабораторія еволюційних алгоритмів у Токіо, молекулярно-біологічна компанія в Берліні, протокол блокчейну в Португалії та кілька провідних лабораторій ШІ, які цього тижня все ще змінюють конфігурацію.

Але якщо зібрати разом те, що вони говорили за ці роки, можна побачити спільне судження, яке повторюється: ніхто насправді не вірить, що Transformer є кінцевою точкою.

Aidan N. Gomez сказав, що світу потрібно щось краще, ніж Transformer; Llion Jones сказав, що наступна архітектура повинна бути «очевидно, безсумнівно кращою», щоб замінити його; Łukasz Kaiser все ще намагається математичною мовою пояснити, наскільки далеко ця дев'ятирічна архітектура може завести людство.

Можливо, саме в цьому полягає найтриваліша спадщина цієї статті: її вісім авторів розкидані по всьому світу, але жоден з них не перестав шукати наступну відповідь.

Оригінальне посилання

Натисніть, щоб дізнатися про вакансії в BlockBeats

Ласкаво просимо до офіційних спільнот BlockBeats:

Telegram-підписка: https://t.me/theblockbeats

Telegram-спільнота: https://t.me/BlockBeats_App

Офіційний Twitter: https://twitter.com/BlockBeatsAsia

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено