Чому розвиток штучного інтелекту в Китаї відбувається так швидко? Відповідь прихована всередині лабораторій

Заголовок оригіналу: Записки з внутрішніх лабораторій штучного інтелекту Китаю
Автор оригіналу: Nathan Lambert
Переклад: Peggy, BlockBeats

Автор оригіналу:律动BlockBeats

Джерело оригіналу:

Перепублікація: Mars Finance

Редакторський вступ: Китайські лабораторії штучного інтелекту стають все більш впливовою силою у глобальній конкуренції великих моделей. Їхні переваги полягають не лише у великій кількості талантів, сильних інженерних командах, швидких ітераціях, а й у досить реалістичній організаційній структурі: менше розмов про концепції, більше створення моделей; менше уваги до окремих зірок, більше — до командної реалізації; менше залежності від зовнішніх сервісів, більше — контролю над власним технологічним стеком.

Автор цієї статті, Nathan Lambert, після відвідування кількох провідних китайських лабораторій штучного інтелекту виявив, що екосистема ШІ у Китаї і США не зовсім однакова. У США більше цінують оригінальні парадигми, капіталовкладення та особистий вплив провідних науковців; у Китаї ж краще вміють швидко наздоганяти вже існуючі напрямки через відкритий код, оптимізацію інженерії та значні інвестиції молодих дослідників, швидко просуваючи можливості моделей на передову.

Найбільш важливим для спостереження є не те, чи вже Китай обігнав США у ШІ, а те, що формуються два різні шляхи розвитку: США більше нагадують змагання на передовій, рухоме капіталом і зірковими лабораторіями; Китай — це швидше індустріальне змагання, яке рухають інженерна здатність, відкритий код і усвідомлення технічного контролю.

Це означає, що у майбутньому конкуренція у ШІ буде не лише у рейтингах моделей, а й у організаційних здібностях, екосистемі розробників і промисловій реалізації. Справжні зміни у китайському ШІ полягають у тому, що він уже не просто копіює Кремнієву долину, а бере участь у глобальній передовій своїм власним шляхом.

Нижче наведено оригінал:

Я сидів у новому високошвидкісному поїзді з Ханчжоу до Шанхаю, дивлячись у вікно, і бачив чітко виражені горбисті хребти, на яких розкидані вітрові турбіни, що створювали силуети під заходом сонця. Гори слугували фоном, а переді мною — широкі поля і скупчення високих будівель, що перепліталися.

Я повернувся з Китаю з великим почуттям скромності. Відвідувати таке незнайоме місце і отримувати таку теплу гостинність — це дуже теплий і людяний досвід. Мені пощастило зустріти багато людей з екосистеми ШІ, яких раніше бачив лише здалеку; і вони зустрічали мене з усмішками і ентузіазмом, нагадуючи, що моя робота і вся екосистема ШІ — це глобальні явища.

Настрій дослідників у Китаї

Китайські компанії, що працюють над мовними моделями, можна вважати «швидкими послідовниками» цієї технології. Вони базуються на довготривалих традиціях освіти і робочої культури у Китаї, а також мають свої особливості у побудові технічних компаній, що відрізняються від західних.

Якщо дивитись лише на результати — найновіші, найбільші моделі і робочі процеси, що їх підтримують; а також на інвестиційні фактори, такі як висококласні науковці, великі обсяги даних і прискорені обчислювальні ресурси — то лабораторії Китаю і США виглядають схожими. Реальні довгострокові відмінності проявляються у тому, як ці фактори організовані і формуються.

Я завжди вважав, що одна з причин, чому китайські лабораторії так добре вміють наздоганяти і триматися біля передової — це їхня культурна відповідність цій задачі. Але перед особистим спілкуванням я не був впевнений, що ця інтуїція має глибокі підстави. Після розмов із багатьма талановитими, скромними і відкритими науковцями у провідних лабораторіях, мої ідеї стали яснішими.

Щоб створити найкращу велику мовну модель, багато залежить від дрібних деталей у всьому технологічному ланцюжку: від даних, архітектурних рішень до реалізації алгоритмів підкріпленого навчання. Кожен етап може дати приріст, але їхнє поєднання — це складний процес. У цьому процесі робота дуже розумних індивідуумів може бути тимчасово відкладена, щоб досягти максимальної оптимізації за кількома цілями.

Американські дослідники, безумовно, також дуже вправні у вирішенні окремих компонентів, але у них існує культура «голос за себе». Як науковець, ти прагнеш привернути увагу до своєї роботи — і тобі це вдається частіше; сучасна культура також сприяє новому шляху слави — ставати «зіркою у галузі ШІ». Це може конфліктувати з колективною культурою.

Широко поширена чутка, що організація Llama зруйнувалася під політичним тиском через ієрархічну структуру інтересів. Я чув і від інших лабораторій, що іноді потрібно «заспокоювати» провідних дослідників, щоб вони припинили скаржитися, що їхні ідеї не увійшли до фінальної моделі. Незалежно від правдивості цих історій, зрозуміло одне: самосвідомість і прагнення до кар’єрного зростання справді можуть заважати створенню найкращої моделі. Навіть така культурна різниця між США і Китаєм може мати значний вплив на кінцевий результат.

Одна з частин цієї різниці — у тому, хто саме створює ці моделі. У всіх лабораторіях помітно, що значна частина ключових учасників — студенти, які ще навчаються. Ці лабораторії молоді, і це нагадує мені нашу організацію в Ai2: студенти вважаються рівноправними учасниками і безпосередньо залучені до команд з великих мовних моделей.

Це дуже відрізняється від американських провідних лабораторій. У США компанії, як OpenAI, Anthropic, Cursor, взагалі не пропонують стажування. Google і інші формально мають програми стажувань, пов’язані з Gemini, але багато хто побоюється, що їхні стажування будуть ізольовані від основної роботи.

Загалом, ця легка культурна різниця може підвищити здатність до створення моделей за рахунок того, що: для покращення кінцевого результату люди більш схильні виконувати менш гламурні завдання; новачки у ШІ швидше адаптуються до сучасних методів, оскільки не зазнали впливу попередніх циклів хайпу; низька самосвідомість сприяє більшій масштабованості організацій, оскільки менше прагнуть «грати системою»; багато талантів здатні швидко вирішувати вже концептуально підтверджені задачі і так далі.

Ця орієнтація на здатність швидко будувати сучасні мовні моделі контрастує з поширеним стереотипом, що китайські дослідники менше створюють «з нуля» новаторські, проривні наукові роботи.

Під час кількох академічних візитів у лабораторії я чув, що багато керівників прагнуть виховати таку більш амбітну дослідницьку культуру. Водночас деякі технічні керівники сумніваються, що ця переорієнтація у науці можлива у короткостроковій перспективі, оскільки вона вимагає повної перебудови системи освіти і стимулів, що є дуже складним у сучасних економічних умовах.

Здається, ця культура вже формує покоління студентів і інженерів, дуже вправних у «грі з побудови великих мовних моделей». І їх кількість дуже велика.

Ці студенти повідомляють, що в Китаї відбувається схожа з США «текучка талантів»: багато хто, хто раніше розглядав академічну кар’єру, тепер прагне залишитися у промисловості. Найцікавіше — це слова одного дослідника, який спочатку хотів стати професором: він сказав, що прагне викладати, щоб бути ближче до системи освіти; але потім додав, що освіта вже вирішена великими мовними моделями — «чому студенти мають ще й приходити до мене на розмову!»

Молоді дослідники з новим поглядом на великі мовні моделі — це їхня перевага. За останні роки ми бачили, як змінювалися ключові парадигми у цій сфері: від розширення MoE, до посилення підкріпленого навчання, до підтримки агентів. Щоб добре опанувати будь-який із цих напрямків, потрібно швидко засвоювати великий обсяг фонової інформації — як з літератури, так і з внутрішніх технологічних стеків компаній.

Студенти звикли до таких задач і готові з покірністю відкинути всі попередні уявлення про те, що «має працювати». Вони занурюються у процес, вкладаючи у нього все життя, щоб отримати шанс покращити модель.

Ці студенти дивовижно чесні і прямі, без тих філософських розмов, що відволікають науковців. Коли я запитував їх про економічний вплив моделей або довгострокові соціальні ризики, я бачив значно менше складних думок і бажання впливати на ці питання. Вони вважають, що їхня роль — створювати найкращі моделі.

Ця різниця дуже тонка і легко заперечується. Але, спілкуючись із досвідченим, розумним і чітким англомовним дослідником, її найкраще відчуваєш: коли ставиш питання про більш філософські аспекти ШІ, у відповідь виникає відчуття простого здивування. Це для них — категорійна помилка.

Навіть один дослідник цитував відомий вислів Dan Wang: що у США все керується юристами, а у Китаї — інженерами. У цьому порівнянні він підкреслював їхнє прагнення до побудови бажаного майбутнього. У Китаї немає системного шляху, що міг би, як у популярних подкастах Dwarkesh або Lex, формувати зірковий вплив науковців.

Я намагався отримати від китайських учених думки щодо майбутньої економічної невизначеності через ШІ, питання про етичні аспекти поведінки моделей або про те, як вони мають проявлятися — але ці питання відкривали лише їхній бекграунд і освіту (ред. 1). Вони дуже сфокусовані на своїй роботі, але виросли у системі, яка не заохочує обговорення ідей щодо того, як має бути організоване суспільство і що потрібно змінювати.

Якщо подивитися ширше, особливо у Пекіні, — це нагадує мені Кремнієву долину: конкурентне середовище лабораторій, що знаходяться всього за кілька хвилин пішки або на таксі. Після прильоту я заїхав у Пекінський кампус Alibaba. За наступні 36 годин ми відвідали інші лабораторії: Zhipu AI, Dark Side of the Moon, Tsinghua University, Meituan, Xiaomi і 01.ai.

У Китаї користуватися Didi дуже зручно. Якщо обрати XL-авто, його часто призначають у міні-вантажівку з масажним кріслом. Спитавши дослідників про боротьбу за таланти, вони сказали, що це дуже схоже на те, що ми переживаємо у США. Перехід між роботами — цілком нормальний, і вибір місця роботи залежить від того, де зараз найкраща атмосфера.

У Китаї спільнота великих мовних моделей більше нагадує екосистему, ніж ворожі племена. У багатьох неофіційних розмовах я чув лише про повагу до колег. Всі лабораторії бояться ByteDance і їхньої популярної моделі Doubao, бо вона є єдиною передовою закритою лабораторією у Китаї. Водночас всі лабораторії дуже цінують DeepSeek, вважаючи її найвишуканішим дослідницьким гравцем у сфері. У США, коли ти спілкуєшся з колегами неофіційно, іскри часто летять.

Найбільше враження від скромності китайських дослідників — те, що вони на бізнес-уровні часто знизують плечима і кажуть, що це не їхня справа. У США ж, здається, кожен захоплений різними галузевими трендами — від продажу даних і обчислювальних ресурсів до фінансування.

Різниця і схожість між китайською індустрією ШІ і західними лабораторіями

Створення AI-моделі сьогодні — це вже не просто зібрати команду дослідників у одному будинку і створити інженерний диво. Це стало гібридним процесом: він включає побудову, розгортання, фінансування і просування цієї технології.

Провідні компанії у сфері ШІ існують у складних екосистемах. Вони забезпечують фінансування, обчислювальні ресурси, дані і багато іншого, щоб підтримувати передову.

У західних екосистемах вже досить чітко окреслено і намальовано, як інтегрувати всі необхідні компоненти для створення і підтримки великих мовних моделей. Anthropic і OpenAI — яскраві приклади. Тому, якщо ми зможемо виявити суттєві відмінності у підходах китайських лабораторій до цих питань, це допоможе зрозуміти, на що вони роблять ставку у майбутньому. Звісно, ці рішення будуть залежати і від фінансування, і від обчислювальних ресурсів.

Ось кілька головних «індустріальних» висновків, які я зробив після спілкування з цими лабораторіями:

  1. Внутрішній попит на ШІ вже проявляється на ранніх стадіях.
    Існує поширена гіпотеза, що китайський ринок ШІ буде меншим, бо китайські компанії зазвичай не готові платити за софт — і тому не зможуть створити великий ринок для моделей, що роблять висновки.

Але ця оцінка справедлива лише для SaaS-екосистеми. В історії Китаю SaaS-екосистема була досить невеликою. З іншого боку, у країні все ще є величезний ринок хмарних сервісів.

Ключове питання — чи витрати китайських компаній на ШІ будуть схожі на SaaS (менший масштаб), чи на хмарний ринок (більш фундаментальні витрати). Це питання обговорюється і всередині лабораторій. Загалом, я відчуваю, що ШІ швидше наближається до хмарного ринку, і ніхто не дуже хвилюється, що ринок нових інструментів не зможе зростати.

  1. Більшість розробників сильно вплинули на Claude.
    Хоча Claude офіційно заборонений у Китаї, більшість китайських розробників дуже захоплені Claude і тим, як він змінює їхній підхід до створення софту. Сам факт, що Китай раніше не був великим платником за софт, не означає, що не буде великого попиту на інтелектуальні моделі.

Китайські технарі дуже прагматичні, скромні і мотивовані. Це відчувається сильніше, ніж будь-які історії про «не купувати софт».

Деякі дослідники згадують, що використовують власні інструменти, наприклад командний рядок Kimi або GLM, але всі говорять про Claude. Вражає, що мало хто згадує Codex, який у Кремнієвій долині швидко набирає популярності.

  1. Китайські компанії мають сильне почуття технічної власності.
    Культура у країні поєднується з економічним двигуном, що працює на повну потужність, і породжує непередбачувані результати. Мені залишилось глибше усвідомити, що багато моделей — це відображення прагматичного балансу тутешніх технічних компаній. Вони не мають єдиного плану.

Ця індустрія визначається повагою до ByteDance і Alibaba — гігантів, що здатні завоювати багато ринків завдяки ресурсам. DeepSeek — поважаний технічний гравець, але не лідер ринку. Вони задають напрямки, але не мають економічної структури для домінування.

Залишаються компанії на кшталт Meituan або Ant Group. Західні можуть дивуватися, чому вони теж створюють ці моделі. Але насправді вони бачать у великих мовних моделях майбутній технологічний продукт і вкладають у фундамент.

Коли вони тонко налаштовують потужні універсальні моделі, зворотній зв’язок відкритого співтовариства допомагає зміцнити їхній стек, а внутрішні версії — зберігаються для власних продуктів. «Відкритий пріоритет» у цій галузі — це прагматизм: він допомагає отримати сильний зворотній зв’язок, підтримати відкритий код і посилити власну місію.

  1. Підтримка уряду реальна, але масштаби невідомі.
    Часто говорять, що уряд Китаю активно сприяє конкуренції у відкритих моделях. Але це складна ієрархічна система, без чітких інструкцій, що саме потрібно робити.

Різні райони Пекіна змагаються за розміщення офісів технологічних компаній. «Допомога» з боку влади, ймовірно, включає спрощення бюрократичних процедур, наприклад, зняття ліцензій. Але наскільки ця допомога ефективна? Чи зможуть різні рівні влади залучити таланти? Чи зможуть вони допомогти з імпортом чіпів?

Під час візитів багато говорили про інтереси і допомогу уряду, але інформації було недостатньо, щоб робити тверді висновки. Не було й ознак, що вищі ешелони влади активно впливають на технічні рішення у моделях.

  1. Індустрія даних значно відстає від західної.
    Раніше повідомляли, що Anthropic або OpenAI витрачають понад 10 мільйонів доларів на один окремий проект, а загальні витрати на підкріплене навчання сягали сотень мільйонів доларів щороку. Тому цікаво, чи купують китайські лабораторії такі ж середовища у американських компаній, чи існує внутрішня екосистема, що їх підтримує.

Відповідь — не «відсутність даної індустрії», а те, що, за досвідом, якість даних і інфраструктури тут нижча. Тому багато компаній вважають за краще створювати власні середовища і дані. Дослідники витрачають багато часу на створення навчальних середовищ, а великі компанії, як ByteDance або Alibaba, мають внутрішні команди для аннотованих даних. Це підтверджує ідею «самостійного створення, а не купівлі».

  1. Попит на чіпи NVIDIA дуже високий.
    Обчислювальні ресурси NVIDIA — золотий стандарт для тренування моделей, і кожен обмежений у прогресі через їхню нестачу. За наявності достатніх поставок, вони купували б їх без вагань. Інші прискорювачі, зокрема Huawei, отримують позитивні відгуки щодо роботи з ними. Багато лабораторій використовують чіпи Huawei.

Ці пункти малюють зовсім іншу картину екосистеми ШІ. Якщо швидко застосовувати західний підхід до китайських колег, це може бути хибним. Головне — чи будуть ці різні екосистеми продукувати суттєво різні моделі, чи китайські моделі завжди будуть сприйматися як аналогічні американським передовим моделям 3-9 місяців тому.

Висновок: глобальна рівновага

Перед поїздкою я знав дуже мало про Китай; після — відчуваю, що тільки починаю вчитися. Китай — це не місце, яке можна описати правилами або рецептами, а швидше — з системами мотивації і хімічними реакціями, що працюють за своїми законами. Його культура така древня, глибока і тісно переплетена з внутрішніми підходами до технологій. Мені ще багато чого потрібно зрозуміти.

Багато частин нинішньої американської системи влади сприймають їхній погляд на Китай як ключовий психологічний інструмент у прийнятті рішень. Після численних офіційних і неофіційних зустрічей із провідними лабораторіями я зрозумів, що у Китаї є багато рис і інстинктів, які важко змоделювати західними підходами.

Навіть якщо я прямо запитував, чому вони відкривають свої найпотужніші моделі, важко було повністю поєднати «почуття власності» і «щире підтримання екосистеми».

Ці лабораторії дуже прагматичні і не є абсолютними прихильниками відкритого коду. Не кожна їхня модель буде відкритою. Але вони мають глибоку мотивацію підтримувати розробників, екосистему і відкритість як спосіб краще зрозуміти свої моделі.

Майже всі великі китайські технологічні компанії створюють свої універсальні мовні моделі. Ми вже бачили, що платформи, як Meituan і Xiaomi, випустили відкриті ваги моделей. У США подібні компанії зазвичай купують послуги.

Створення великих мовних моделей у цих компаніях — не для того, щоб просто бути у тренді, а з глибоким прагненням контролювати свою технологічну базу і розвивати найважливіші технології. Коли я піднімаю голову з ноутбука і бачу групи кранів на горизонті, це цілком відповідає ширшій культурі будівництва і енергії у Китаї.

Людяність, щирість і тепло китайських дослідників дуже близькі і викликають довіру. У особистому плані, у США ми звикли до жорстких геополітичних дискусій, які тут майже не проникають. Світ міг би мати більше таких простих і позитивних моментів. Як учасник спільноти ШІ, я тепер більше турбуюся про те, що навколо національних тегів і груп виникають тріщини.

Якщо скажу, що не хочу, щоб американські лабораторії у всіх аспектах технологічного стеку були беззаперечними лідерами — я б брехав. Особливо у сфері відкритих моделей, я — американець і цю позицію вважаю чесною.

Разом з тим, я сподіваюся, що відкриті екосистеми зможуть процвітати у глобальному масштабі, адже це сприятиме створенню безпечнішого, доступнішого і кориснішого штучного інтелекту для світу. А зараз головне питання — чи візьмуть американські лабораторії на себе ініціативу і зайняти цю провідну позицію.

Поки я закінчую цю статтю, поширюються чутки про можливий вплив адміністративних указів на відкриті моделі. Це може ускладнити співпрацю США і світової екосистеми — і це не додає мені впевненості.

Дякую всім чудовим людям у Dark Side of the Moon, Zhipu AI, Meituan, Xiaomi, Tongyi Qianwen, Ant Light, 01.ai та інших організаціях, з якими мені пощастило поспілкуватися. Всі вони дуже щедрі і віддавали свій час. Зі зростанням моїх ідей я продовжуватиму ділитися спостереженнями про Китай, включно з ширшими культурними аспектами і самим ШІ.

Очевидно, що ці знання безпосередньо пов’язані з історією розвитку передової у галузі штучного інтелекту.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити