Модель мира в этом году быстро достигнет прорыва! Коммерциализация автоматического вождения может стать поворотным моментом

LightningPacketLoss · 2026-03-30T17:00:10+00:00

На Форуме в Центральном парке в 2026 году Чжу Цзюнь отметил, что при поддержке единой архитектуры и системы данных мировая модель быстро достигнет прорыва. Он подчеркнул, что текущее определение мировой модели размыто, необходимо уточнить различия между её цифровыми и физическими приложениями, особенно в области робототехники и предобучения. Основные направления будущих технологических прорывов — это возможности для взаимодействия в реальном времени и онлайн-обучения, что позволит поддерживать больше интеллектуальных приложений.

LightningPacketLoss

2026-03-30 17:00:10

Генерация тезисов в процессе

«С учетом совместного продвижения единой архитектуры, системы данных и вычислительной мощности, в этом году world model [мир-модель] выйдет на быстрый прорыв!»

На специализированном форуме «AI未来论坛：跃迁·投资·共生» ежегодного собрания 2026 Чжунгуаньцуньского форума, которое состоялось 29 марта, основатель компании Shengshu Keji, заместитель директора Исследовательского института искусственного интеллекта Пекинского университета Цинхуа Чжу Цзюнь высказал приведенные выше соображения.

Как построить

Тем временем определение «world model [мир-модель]» расширяется и размывается. «Есть необходимость дополнительно прояснить определение „world model“», — заявил Чжу Цзюнь. В настоящее время многие исследования неполные. Например, некоторые методы генерации интерактивного видео по сути все еще ограничены реконструкцией в цифровом пространстве: они в основном предназначены для одностороннего взаимодействия человека с системой и не обладают способностью обучаться и выполнять действия в реальной среде.

«World model [мир-модель]» основатель манфолд-пространства У Вэй разделил на две категории: одна — world model в цифровом мире, главное — построение более интерактивного интерфейса в реальном времени; другая — для физического мира, становясь предсказуемым машинным мозгом. «Возможности, которые поддерживают две разновидности world model, не совпадают: в цифровом мире нужно больше учитывать предпочтения создателей, а в физическом мире — воссоздавать реальную физику и робототехнические операции».

Например, в случае автоматизированного вождения и embodied intelligence [воплощенного/телесного интеллекта]. Автопилот собирает данные на реальных автомобилях, чтобы реализовать замкнутый цикл данных, а робот сталкивается с проблемой холодного старта данных. У Вэй проанализировал, что многие компании склонны развертывать роботов по аналогии с автопилотом: выполнять дистанционное телеуправление в реальной среде для сбора данных. Хотя качество данных очень высокое, существует проблема: скорость роста производительности модели при увеличении масштаба параметров или вложений в вычислительные мощности. «Для обучения world model [мир-модели] предобучение на данных с перспективой от первого лица может решить эту проблему».

Исходя из корпоративного опыта, основатель компании PoPo (破壳) по роботам, а также младший научный сотрудник (assistant professor) Исследовательского института междисциплинарной информации Пекинского университета Цинхуа Сюй Хуацзэ указал: при сборе данных в 100 семьях невозможно обобщить их на 10 000 семей. Предобучение роботов требует предобучения на видео от первого лица, чтобы обеспечить действительно осмысленное обобщение. Конкретно: сначала четко определить, что нужно делать и чего не нужно делать, затем итеративно дорабатывать систему в обратном направлении, включая оборудование, управление движением и т. д. Например, рука робота PoPo не может реализовать 21 степень свободы, но может обобщенно выполнить 10 задач — а затем ждать обновления.

Чжу Цзюнь предложил «унифицированную фреймворк-архитектуру world model», теоретически объединив кроссмодальную генерацию и задачи действий. Это объединение — не механическое «склеивание» инженерных компонентов, а объединение на уровне структуры. С более макроскопической точки зрения, независимо от цифрового мира или физического мира, в конечном счете их будут формировать агенты интеллекта разных форм. Агенты в физическом мире имеют «тело», а world model — его центральный «интеллектуальный узел».

Построение универсальной world model можно свести к базовым принципам больших моделей: расширяемая архитектура, крупномасштабные данные и достаточные вычислительные мощности. Чжу Цзюнь считает, что world model [мир-модель] должна использовать унифицированную архитектуру, а текущие основные подходы зачастую модульные и фрагментированные: одни фокусируются на подгонке траекторий действий, другие — на предсказании, третьи — сразу учатся стратегиям управления.

Технические прорывы

Говоря о возможностях технологии world model, доцент Пекинского университета Цинхуа Чжан Минсинь отметил, что многие направления world model строятся на возможностях языковых моделей, а затем переносятся на большее число модальностей. Однако достаточно ли языка, чтобы моделировать физический мир, или же нужна другая форма языка в «поверхностном пространстве»? В настоящее время существуют теоретические разногласия. Кроме того, достигается ли «физический телеметрический мониторинг» через обучение на данных, или через физическое пространство; а также — это «телеметрия физических объектов» или «перспектива от первого лица»? Модальность физического пространства и реализация — все еще требуют прорыва.

В частности, в 2026 году world model [мир-модели] следует сосредоточиться на двух ключевых технических прорывах. У Вэй сказал: во-первых, это способности интерактивного управления в реальном времени, во-вторых, post-training [дообучение после основной стадии] world model. «Особенно — reinforcement learning и online learning [обучение с подкреплением и онлайн-обучение]», — Чэнь Хуацзэ подробно это пояснил: позволить reinforcement learning расшириться до сотен, тысяч, десяти тысяч роботов и достичь скорости, как у человека, не теряя уровень успешности; а также — чтобы embodied intelligence [воплощенный интеллект] после развертывания могла быстро выполнять онлайн-обучение для странных/необычных задач.

Опираясь на длительные накопления в видеомоделях, Чжу Цзюнь предложил более ясный технический маршрут: в основе — Diffusion Transformer (U-ViT) как унифицированный базовый каркас; в декодировании в пиксельном пространстве — модели генерации видео Vidu, которые обслуживают создание цифрового контента; в декодировании в пространстве действий — модели, обслуживающие телесное взаимодействие в физическом мире. Это означает, что один и тот же базовый модельный каркас может одновременно поддерживать генеративные способности в цифровом мире и способности к действиям в физическом мире.

По имеющимся сведениям, Shengshu Keji проверила свои возможности в сценариях с множеством задач. Например: задача управления капчей — с помощью механической руки смоделировать действия человека по управлению мышью, чтобы выполнить распознавание на экране и точные клики; задача принятия решений в игре в шахматы/настольные игры — включающая долгосрочное планирование и многошаговое рассуждение, требующая согласованности восприятия, предсказания и принятия решений; задача управления гибкими объектами — сталкиваясь со сложными и неправильной формы объектами, обеспечить устойчивый захват.

Унифицированная архитектура открывает новый путь развития. По результатам наблюдений экспериментов Чжу Цзюнь отметил два ключевых явления: во-первых, по сравнению с традиционным маршрутом Vision-Language-Action (VLA, зрение-язык-действие) эффективность использования данных повышается на порядок; во-вторых, усиливается способность к обобщению по множеству задач: под унифицированной моделью можно эффективно обобщать на более чем 50 задачах, причем производительность не снижается, а наоборот растет. В отличие от этого, традиционные модели VLA (например, PI0.5) при увеличении числа задач будут заметно снижать производительность.

На этапе внедрения два основных направления — автоматизированное вождение и промышленные вертикальные сценарии — в 2026 году достигнут поворотной точки в коммерциализации и капиталоемкости. Основатель и управляющий партнер YaoTu Capital Бай Цзунъи прямо заявил, что смотрит с оптимизмом на новые возможности эпохи embodied intelligence [воплощенного/телесного интеллекта] — маршрут末梢物流 (последняя миля/логистика конечного участка). Заместитель генерального директора по R&D в Китае компании Audi Ivo Muth считает, что относительно пространственного интеллекта и world model [мир-модели] самое ключевое изменение в будущем проявится не только в повышении безопасности вождения, но и в контекстном восприятии и комфортности поездки.

(Редактор: Вэньцзин)

Ключевые слова：

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .