Світова модель цього року швидко зробить прорив! Автономне водіння може набути комерційного розвороту

LightningPacketLoss · 2026-03-30T17:00:10+00:00

На форумі Zhongguancun 2026 року Чжу Цзюнь зазначив, що за підтримки єдиної архітектури та системи даних світова модель швидко прорветься. Він підкреслив, що наразі визначення світової моделі є розмитим, потрібно чітко окреслити різницю між її цифровими та фізичними застосуваннями, особливо в галузі робототехніки та потребі у попередньому навчанні. Майбутні технологічні прориви зосереджені на можливостях реального часу для взаємодії та онлайн-навчання, сподіваючись підтримати більше інтелектуальних застосунків.

LightningPacketLoss

2026-03-30 17:00:10

Генерація анотацій у процесі

«За спільного поступу уніфікованої архітектури, системи даних і обчислювальної потужності світова модель у цьому році здійснить швидкий прорив!»

На спеціальному форумі щорічної конференції Пекінського форуму Чжунгуаньцунь 2026, що відбувся 29 березня, у рамках «Форум майбутнього AI: стрибок·інвестиції·співіснування», засновник компанії Shengshu Technology та заступник директора Інституту досліджень штучного інтелекту Університету Цінхуа Чжу Цзюнь висловив зазначену вище думку.

Як побудувати

Водночас визначення «світової моделі» розширюють і розмивають. «Потрібно додатково прояснити визначення “світової моделі”.» Чжу Цзюнь зазначив, що нині багато досліджень є неповними. Наприклад, деякі методи генерації інтерактивного відео по суті все ще обмежені реконструкцією в цифровому просторі, здебільшого для односпрямованої взаємодії людини з системою і не мають здатності вчитися та виконувати дії в реальному середовищі.

«Світова модель» засновник маніфолдного простору У Вей поділив на два типи: один — це світова модель у цифровому світі, головно для побудови більш інтерактивних інтерфейсів у режимі реального часу; другий — для фізичного світу, як передбачуваний «мозок» робота. «Здібності, які підтримують два види світових моделей, не є однаковими: у цифровому світі треба більше враховувати вподобання творців, а у фізичному світі — відтворювати реальну фізику та роботом здійснювані операції».

Візьмімо для прикладу автономне керування та втілений інтелект. Автономне керування збирає дані на реальному транспортному засобі, щоб реалізувати замкнений цикл даних, тоді як роботи стикаються з проблемою «холодного старту» даних. У Вей проаналізував, що багато компаній схильні розгортати роботів за подібним до автономного керування підходом: здійснювати дистанційне керування в реальному середовищі для збору даних. Хоча якість даних дуже висока, існує проблема швидкості зростання продуктивності моделі залежно від масштабування параметрів або інвестицій у обчислювальну потужність. «Для тренування світових моделей попереднє навчання з даних від першої особи може вирішити цю проблему».

Виходячи з досвіду компаній, засновник «Покірної шкаралупи» Роботів, асистент-професор Інституту міждисциплінарної інформації Університету Цінхуа Сюй Хуачже зазначив: під час збору даних у 100 сім’ях неможливо узагальнити на 10000 сімей. Попереднє тренування роботів має проводитися з відео від першої особи, забезпечуючи справжнє узагальнення. Детальніше: спершу чітко визначити, що робити і що не робити, а потім виконати зворотну ітерацію системи, включно з апаратним забезпеченням, керуванням рухом тощо. Наприклад, рука робота «Покірна шкаралупа» не може реалізувати 21 ступінь свободи, але може узагальнено виконувати 10 справ, а потім чекати на оновлення.

Чжу Цзюнь запропонував «єдину рамку світової моделі», у якій у теорії уніфікують кросмодальну генерацію та задачі дій. Це єдине — не механічне збирання інженерних частин, а єдиність на рівні структури. З більш макроскопічної точки зору, незалежно від того, чи йдеться про цифровий світ, чи про фізичний, у підсумку все буде складено з інтелектуальних агентів різних форм. У фізичному світі агенти мають «тіло», а світова модель — його ключовий «інтелектуальний центр».

Побудову універсальної світової моделі можна повернути до першооснов великих моделей: масштабована архітектура, великі обсяги даних і достатня обчислювальна потужність. Чжу Цзюнь вважає, що світову модель слід будувати на уніфікованій архітектурі, тоді як нинішні поширені підходи часто є модульними й фрагментованими: дехто фокусується на апроксимації траєкторій дій, дехто — на прогнозуванні, а дехто — на прямому навчанні стратегій керування.

Технічний прорив

Говорячи про можливості технології світових моделей, доцент Університету Цінхуа Чжан Мінсінь зазначив, що багато маршрутів світових моделей ґрунтуються на можливостях мовних моделей, а потім переносяться на більше модальностей. Однак чи достатньо мови для моделювання фізичного світу — чи потрібна інша мова з «поверхневого простору»? Нині існують розбіжності в теорії. Крім того, чи досягати «фізичного телеконтролю» через навчання даних, чи через фізичний простір? Модальності фізичного простору та їх реалізація досі потребують прориву.

Зокрема, у 2026 році світовим моделям слід приділити увагу двом ключовим технічним проривам. У Вей сказав, що по-перше — здатність до реального керування та взаємодії; по-друге — посттренування світової моделі. «Особливо підкріплювальне навчання та онлайн-навчання», — Чжу Хуачже докладно це пояснив: підкріплювальне навчання розширюють до сотні, тисячі, навіть десяти тисяч роботів, і досягають швидкості, як у людини, не втрачаючи показник успішності; а також — щоб втілений інтелект після розгортання міг швидко виконувати онлайн-навчання для дивних задач.

Спираючись на довготривале накопичення в відео-гігантських моделях, Чжу Цзюнь запропонував більш чіткий технічний маршрут: на нижньому рівні Diffusion Transformer (U-ViT) як уніфіковану базову архітектуру; у просторі пікселів декодування — моделі генерації відео Vidu, що слугує створенню цифрового контенту; у просторі дій декодування — для втіленої взаємодії у фізичному світі. Це означає, що одна й та сама базова модель може одночасно підтримувати здатність до генерації цифрового світу та здатність до дій у фізичному світі.

Як повідомляється, Shengshu Technology підтвердила свою здатність у сценаріях багаторазових задач. Наприклад: задача роботи з CAPTCHA — за допомогою механічної руки імітують дії людини з мишею, здійснюючи розпізнавання екрана та точне натискання; задача прийняття рішень у шахах — охоплює довгострокове планування та багатокрокове міркування, потребує узгодження сприйняття, прогнозування та ухвалення рішень; задача керування гнучкими об’єктами — зі складними, нерегулярними об’єктами реалізує стабільне захоплення.

Уніфікована архітектура відкриває нові шляхи розвитку. За результатами спостережень у експериментах Чжу Цзюнь назвав два ключові явища: по-перше, порівняно з традиційним маршрутом Vision-Language-Action (VLA, зір-мова-дії), ефективність використання даних підвищується на порядок; по-друге, зростає здатність до узагальнення для багатьох задач — у рамках уніфікованої моделі можна ефективно узагальнювати на понад 50 задачах, причому продуктивність не лише не падає, а й зростає. Натомість традиційні моделі VLA (наприклад, PI0.5) при збільшенні кількості задач демонструють помітне зниження продуктивності.

На етапі впровадження на двох великих напрямах — автономне керування та індустріальні вертикальні сценарії — у 2026 році настане комерціалізаційний і капіталізаційний перелом. Засновник партнер і партнер керівника фонду YaoTu Capital Бай Цзуньи прямо сказав, що вірить у нові можливості в епоху втіленого інтелекту — сегмент кінцевої логістики. Заступник технічного директора Audi China Ivo Muth вважає, що щодо просторового інтелекту та світової моделі в майбутньому найголовніша зміна, окрім підвищення безпеки керування, також проявиться у рівні розпізнавання ситуацій і комфорті під час поїздок.

(Редактор: Веньцзінь)

Ключові слова:

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.