Mô hình thế giới sẽ có bước đột phá nhanh trong năm nay! Xe tự lái có thể đối mặt với bước ngoặt thương mại

robot
Đang tạo bản tóm tắt

“在统一架构、数据体系与算力支撑的共同推动下,世界模型将在今年迎来快速突破!”

在3月29日举行的2026中关村论坛年会专题论坛“AI未来论坛:跃迁·投资·共生”上,生数科技创始人、清华大学人工智能研究院副院长朱军提出上述观点。

如何构建

与此同时,对世界模型的定义正在被扩大化和模糊化。“有必要对‘世界模型’定义进一步澄清。”朱军表示,当前很多研究不完整。例如,一些交互式视频生成方法本质上仍局限于数字空间的重建,主要用于人与系统的单向交互,并不具备在真实环境中学习和执行动作的能力。

“世界模型”被流形空间创始人武伟分为两类:一类是在数字世界的世界模型,主为构建更实时的交互界面;一类是用于物理世界,成为可预测的机器人大脑。“支撑两种世界模型的能力并不一致,在数字世界要更多迎合创作者偏好,而在物理世界则要复刻真实的物理和机器人操作。”

以自动驾驶与具身智能为例,自动驾驶采集实车数据实现数据闭环,而机器人面临数据冷启动。武伟分析,很多公司倾向用类似自动驾驶的方式部署机器人,在真实环境进行遥操作实现数据采集。尽管数据质量很高,但存在模型性能随参数规模或算力投入增长的速率问题。“对于世界模型训练来说,用第一人称视角数据做预训练,可以解决这一问题。”

从企业经验出发,破壳机器人创始人、清华大学交叉信息研究院助理教授许华哲指出,在100个家庭进行数据采集,没办法泛化到10000个家庭。机器人预训练需要以第一人称视频做预训练,提供真正意义上的泛化。具体来看,先定义好做什么、不做什么,然后反向迭代系统,包括硬件、运控等。例如,破壳机器人的手并不能实现21个自由度,但是能把10件事做得泛化,然后等待升级。

朱军提出“统一的世界模型框架”,将跨模态生成与行动任务在理论上进行统一。这种统一不是工程拼接,而是结构层面的统一。从更宏观的角度来看,无论是数字世界还是物理世界,最终都将由不同形态的智能体构成。物理世界中的智能体具备“身体”,而世界模型则是其核心“智能中枢”。

构建通用世界模型可以回到大模型第一性原理,即可扩展的架构、大规模数据以及充足算力。朱军认为,世界模型应采用统一架构,而当前主流方法往往是模块化、碎片化,有的专注动作轨迹拟合,有的偏向预测,有的直接学习控制策略。

技术突破

谈到世界模型技术可能性时,清华大学副教授章明星表示,很多世界模型路线是基于语言模型能力,再迁移到更多模态。然而,语言是否足以建模物理世界,还是需要另外一种浅空间语言?目前存在理论分歧。此外,通过数据训练还是通过物理空间,达到“物理遥测”还是“第一人视角”?物理空间模态及实现,仍待突破。

具体来看,2026年世界模型需关注两大技术突破。武伟称,一是实时操纵交互能力,二是世界模型后训练。“特别是强化学习与在线学习”,许华哲对此进行了具体阐述,让强化学习扩展到一百、一千、一万台机器人,在不损失成功率的情况下达到人一样的速度;另外,让具身智能在部署后还能针对奇怪的任务进行快速在线学习。

结合在视频大模型上的长期积累,朱军提出一个更清晰的技术路线:在底层,Diffusion Transformer(U-ViT)作为统一基座架构;在像素空间解码,对应Vidu视频生成模型,服务于数字内容创作;在动作空间解码,服务于物理世界具身交互。这意味着,同一个基座模型,可以同时支撑数字世界的生成能力与物理世界的行动能力。

据介绍,生数科技验证了其在多任务场景中的能力。例如:验证码操作任务——通过机械臂模拟人类操作鼠标,实现屏幕识别与精准点击;棋类决策任务——涉及长程规划与多步推理,需要感知、预测与决策协同:柔性物体操作——面对复杂、不规则物体,实现稳定抓取。

统一架构带来新发展路径。通过实验观察到两个关键现象,朱军称,一是相比传统Vision-Language-Action(VLA,视觉-语言-动作)路线,数据利用效率有量级提升;二是多任务泛化能力增强,统一模型下可以在50多个任务上实现高效泛化,且性能不降反升。相比之下,传统VLA模型(如PI0.5)在任务数量增加时性能会明显下降。

在落地层面,自动驾驶与工业垂直场景两大赛道将在2026年迎来商业化和资本化拐点。耀途资本创始合伙人白宗义直言,看好具身智能时代的新机会——末梢物流赛道。奥迪中国研发副总裁Ivo Muth认为,关于空间智能与世界模型,未来最核心的变化在提升驾驶安全之外,还会体现在情境感知与乘坐舒适层面。

(编辑:文静)

关键字:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim