Model dunia akan mengalami terobosan cepat tahun ini! Kendaraan otomatis mungkin akan memasuki titik balik komersialisasi

LightningPacketLoss · 2026-03-30T17:00:10+00:00

Dalam Forum Zhongguancun 2026, Zhu Jun menunjukkan bahwa di bawah dukungan arsitektur terpadu dan sistem data, model dunia akan dengan cepat terobosan. Dia menekankan bahwa definisi model dunia saat ini masih kabur, perlu memperjelas perbedaan antara aplikasi digital dan fisik, terutama dalam kebutuhan pra-pelatihan di bidang robot. Terobosan teknologi di masa depan akan fokus pada kemampuan interaksi waktu nyata dan pembelajaran daring, dengan harapan dapat mendukung lebih banyak aplikasi cerdas.

LightningPacketLoss

2026-03-30 17:00:10

Pembuatan abstrak sedang berlangsung

“在统一的架构、数据体系以及算力支撑的共同推动下，世界模型今年将迎来快速突破！”

在3月29日举行的2026中关村论坛年会专题论坛“AI未来论坛：跃迁·投资·共生”上，生数科技创始人、清华大学人工智能研究院副院长朱军提出上述观点。

如何构建

与此同时，对世界模型的定义正在被扩大化并变得模糊。“有必要进一步澄清‘世界模型’的定义。”朱军表示，当前许多研究并不完整。例如，一些交互式视频生成方法本质上仍局限于数字空间的重建，主要用于人与系统的单向交互，并不具备在真实环境中学习和执行动作的能力。

“世界模型”被流形空间创始人武伟分为两类：一类是在数字世界中的世界模型，主要用于构建更实时的交互界面；一类是用于物理世界，成为可预测的机器人大脑。“支撑这两种世界模型的能力并不一致：在数字世界要更多迎合创作者偏好，而在物理世界则要复刻真实的物理和机器人操作。”

以自动驾驶和具身智能为例，自动驾驶通过采集实车数据实现数据闭环，而机器人面临数据冷启动。武伟分析，很多公司倾向于用类似自动驾驶的方式部署机器人，在真实环境中通过远程遥操作实现数据采集。尽管数据质量很高，但存在模型性能随着参数规模或算力投入增长的速率问题。“对于世界模型训练而言，用第一人称视角数据进行预训练，可以解决这一问题。”

从企业经验出发，破壳机器人创始人、清华大学交叉信息研究院助理教授许华哲指出，在100个家庭中进行数据采集，无法泛化到10000个家庭。机器人预训练需要以第一人称视频进行预训练，提供真正意义上的泛化。具体来说，先把要做什么、不要做什么定义好，然后反向迭代系统，包括硬件、运控等。例如，破壳机器人的手并不能实现21个自由度，但能够把10件事做得泛化，然后等待升级。

朱军提出“统一的世界模型框架”，在理论上将跨模态生成与行动任务统一起来。这种统一并不是工程拼接，而是结构层面的统一。从更宏观的角度看，无论是数字世界还是物理世界，最终都将由不同形态的智能体构成。物理世界中的智能体具备“身体”，而世界模型则是其核心“智能中枢”。

构建通用世界模型可以回到大模型的第一性原理：可扩展的架构、大规模数据以及充足算力。朱军认为，世界模型应采用统一架构，而当前主流方法往往是模块化、碎片化：有的专注动作轨迹拟合，有的偏向预测，有的直接学习控制策略。

Teknologi Terobosan

Saat membahas kemungkinan teknologi world model,章明星 selaku profesor madya di Universitas Tsinghua mengatakan, banyak jalur world model didasarkan pada kemampuan model bahasa, lalu dialihkan ke lebih banyak modalitas. Namun, apakah bahasa cukup untuk memodelkan dunia fisik, atau perlu bahasa ruang dangkal yang lain? Saat ini terdapat perbedaan pendapat secara teoretis. Selain itu, lewat pelatihan data atau lewat ruang fisik, untuk mencapai “telemetri fisik” atau “sudut pandang orang pertama”? Modalitas ruang fisik dan implementasinya masih perlu terobosan.

Secara lebih spesifik, pada tahun 2026 world model perlu memperhatikan dua terobosan teknologi utama.武伟 mengatakan, pertama adalah kemampuan manipulasi interaksi secara real-time, dan kedua adalah world model post-training. “Khususnya reinforcement learning dan online learning,”许华哲 menjelaskannya secara rinci: membuat reinforcement learning meluas sampai seratus, seribu, sepuluh ribu robot, dengan mencapai kecepatan seperti manusia tanpa menurunkan tingkat keberhasilan; selain itu, membuat inteligensi embodied mampu melakukan online learning yang cepat terhadap tugas-tugas yang aneh setelah deployment.

Berdasarkan akumulasi jangka panjang pada video model besar,朱军 mengajukan rute teknologi yang lebih jelas: di tingkat dasar, Diffusion Transformer (U-ViT) sebagai arsitektur basis yang unified; pada decoding di ruang piksel, sesuai dengan model generasi video Vidu, untuk melayani penciptaan konten digital; pada decoding di ruang aksi, untuk melayani interaksi embodied di dunia fisik. Ini berarti bahwa model basis yang sama dapat sekaligus mendukung kemampuan generasi di dunia digital dan kemampuan beraksi di dunia fisik.

Menurut informasi,生数科技 telah memverifikasi kemampuannya dalam skenario multi-tugas. Misalnya: tugas operasi captcha—melalui lengan mekanik yang meniru operasi manusia atas mouse, untuk memungkinkan pengenalan layar dan klik presisi; tugas pengambilan keputusan permainan papan—melibatkan perencanaan jarak jauh dan penalaran beberapa langkah, memerlukan koordinasi persepsi, prediksi, dan pengambilan keputusan; operasi objek fleksibel—menghadapi objek yang kompleks dan tidak beraturan, untuk mencapai penangkapan yang stabil.

Arsitektur yang unified menghadirkan jalur perkembangan baru. Melalui pengamatan eksperimen,朱军 menyebut dua fenomena kunci: pertama, dibandingkan dengan jalur tradisional Vision-Language-Action (VLA, visi-bahasa-aksi), efisiensi pemanfaatan data meningkat secara orde; kedua, kemampuan generalisasi multi-tugas meningkat—dengan model unified, dapat mencapai generalisasi yang efisien pada lebih dari 50 tugas, dan kinerja tidak turun melainkan naik. Sebaliknya, model VLA tradisional (seperti PI0.5) saat jumlah tugas bertambah akan mengalami penurunan kinerja yang jelas.

Pada tingkat penerapan, dua jalur utama—pengemudian otonom dan skenario industri vertikal—pada tahun 2026 akan mengalami titik balik komersialisasi dan kapitalisasi. Putih宗义, mitra pendiri Yayasan/Perusahaan investasi耀途资本, terus terang mengatakan, ia melihat peluang baru di era inteligensi embodied—pada jalur logistik last-mile. Ivo Muth, wakil presiden bidang riset dan pengembangan di Audi China, berpendapat bahwa terkait inteligensi ruang dan world model, perubahan paling inti di masa depan—selain peningkatan keselamatan berkendara—juga akan tercermin pada persepsi konteks dan kenyamanan saat berkendara.

(Editor: 文静)

Kata kunci：

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.