¡El modelo mundial dará un avance rápido este año! La conducción autónoma podría experimentar un punto de inflexión en su comercialización

LightningPacketLoss · 2026-03-30T17:00:10+00:00

En el Foro Zhongguancun 2026, Zhu Jun señaló que bajo una arquitectura unificada y un sistema de datos, el modelo mundial avanzará rápidamente. Destacó que la definición actual del modelo mundial es difusa y que es necesario aclarar las diferencias entre sus aplicaciones en el ámbito digital y físico, especialmente en las necesidades de preentrenamiento en el campo de los robots. Los futuros avances tecnológicos se centrarán en capacidades de interacción en tiempo real y aprendizaje en línea, con la esperanza de respaldar más aplicaciones inteligentes.

LightningPacketLoss

2026-03-30 17:00:10

Generación de resúmenes en curso

“¡Impulsados conjuntamente por una arquitectura unificada, un sistema de datos y el respaldo del poder de cómputo, los modelos del mundo alcanzarán este año avances rápidos!”

En el Foro Temático del año 2026 del Foro Zhongguancun “Foro sobre el Futuro de la IA: Salto·Inversión·Cohesión”, celebrado el 29 de marzo, el fundador de Shengshu Keji, Zhu Jun, también vicepresidente del Instituto de Investigación de Inteligencia Artificial de la Universidad Tsinghua, planteó el punto de vista anterior.

Cómo construir

Al mismo tiempo, la definición de “modelo del mundo” se está ampliando y volviendo más difusa. “Es necesario aclarar aún más la definición de ‘modelo del mundo’”, afirmó Zhu Jun. En la actualidad, muchas investigaciones son incompletas. Por ejemplo, algunos métodos de generación de video interactivo en esencia todavía se limitan a la reconstrucción del espacio digital; se utilizan principalmente para una interacción unidireccional entre personas y sistemas, y no cuentan con la capacidad de aprender y ejecutar acciones en entornos reales.

“Los ‘modelos del mundo’ son divididos en dos categorías por Wu Wei, fundador del espacio de variedades. Una es el modelo del mundo en el mundo digital, cuyo objetivo principal es construir interfaces de interacción más en tiempo real; la otra es para el mundo físico, convirtiéndose en el cerebro robótico predecible. Las capacidades que sustentan estos dos tipos de modelos del mundo no son consistentes: en el mundo digital hay que satisfacer más las preferencias de los creadores, mientras que en el mundo físico hay que replicar la física y las operaciones reales de los robots”.

Tomemos como ejemplo la conducción autónoma y la inteligencia con cuerpo. La conducción autónoma recopila datos de vehículos reales para lograr un ciclo cerrado de datos, mientras que los robots se enfrentan al arranque en frío de datos. Wu Wei analizó que muchas empresas tienden a desplegar robots de manera similar a la conducción autónoma: realizar teleoperación en entornos reales para recopilar datos. Aunque la calidad de los datos es muy alta, existe un problema de que el rendimiento del modelo crece a una tasa que depende del tamaño de los parámetros o de la inversión en cómputo. “Para el entrenamiento de modelos del mundo, usar datos con perspectiva en primera persona para el preentrenamiento puede resolver este problema”.

Partiendo de la experiencia empresarial, Xu Huazhe, fundador de Po Poji Robot y profesor asistente del Instituto de Información Interdisciplinaria de la Universidad Tsinghua, señaló que al recopilar datos en 100 hogares, no es posible generalizar a 10000 hogares. El preentrenamiento de robots necesita usar videos en primera persona para el preentrenamiento, proporcionando una generalización en un sentido realmente significativo. En concreto, primero se define qué hacer y qué no hacer; después se itera en sentido inverso el sistema, incluyendo hardware, control de movimiento, etc. Por ejemplo, la mano del robot Po Poji no puede lograr 21 grados de libertad, pero sí puede hacer que 10 cosas se generalicen y luego esperar la actualización.

Zhu Jun propuso un “marco unificado de modelos del mundo”, unificando teóricamente la generación multimodal y las tareas de acción. Esta unificación no es una simple integración por ingeniería, sino una unificación a nivel estructural. Desde una perspectiva más macro, tanto en el mundo digital como en el mundo físico, al final estarán compuestos por agentes inteligentes de distintas formas. Los agentes en el mundo físico poseen “un cuerpo”, mientras que el modelo del mundo es su núcleo “centro inteligente”.

Construir un modelo del mundo general puede volver a los primeros principios del gran modelo: una arquitectura ampliable, grandes cantidades de datos y suficiente poder de cómputo. Zhu Jun cree que el modelo del mundo debe adoptar una arquitectura unificada, mientras que, en la actualidad, los métodos dominantes suelen ser modulares y fragmentados: algunos se centran en ajustar trayectorias de acciones, otros en predecir, y otros aprenden directamente estrategias de control.

Avances tecnológicos

Al hablar sobre la posibilidad de la tecnología de modelos del mundo, Zhang Mingxing, profesor adjunto de la Universidad Tsinghua, dijo que muchas rutas de modelos del mundo se basan en las capacidades de los modelos de lenguaje y luego se transfieren a más modalidades. Sin embargo, ¿el lenguaje es suficiente para modelar el mundo físico? ¿O se necesita otro tipo de lenguaje de espacio poco profundo? Actualmente existen divergencias teóricas. Además, ¿se logra “telemétrica física” o “vista en primera persona” mediante entrenamiento con datos o mediante el espacio físico? Todavía hay que superar los modos del espacio físico y su implementación.

En concreto, en 2026, los modelos del mundo deben enfocarse en dos grandes avances tecnológicos. Wu Wei señaló que uno es la capacidad de manipulación e interacción en tiempo real, y el otro es el entrenamiento posterior de modelos del mundo. “En particular, el aprendizaje por refuerzo y el aprendizaje en línea”, Xu Huazhe lo explicó de manera específica: hacer que el aprendizaje por refuerzo se extienda a cien, mil y diez mil robots, y lograr una velocidad similar a la humana sin perder la tasa de éxito; además, permitir que la inteligencia con cuerpo, después de desplegarse, aún pueda aprender rápidamente en línea para tareas extrañas.

Combinando la acumulación a largo plazo en modelos de video, Zhu Jun propuso una ruta tecnológica más clara: en la capa base, Diffusion Transformer (U-ViT) como arquitectura de base unificada; en la decodificación del espacio de píxeles, correspondiente al modelo de generación de video Vidu, para servir a la creación de contenido digital; en la decodificación del espacio de acciones, para servir a la interacción con cuerpo en el mundo físico. Esto significa que el mismo modelo base puede respaldar simultáneamente la capacidad generativa del mundo digital y la capacidad de acciones del mundo físico.

Según la introducción, Shengshu Keji ha verificado su capacidad en escenarios de múltiples tareas. Por ejemplo: tarea de operación de captcha—mediante un brazo mecánico que simula la operación humana del mouse, se realiza el reconocimiento de pantalla y clics precisos; tarea de toma de decisiones en juegos—que involucra planificación de largo alcance e inferencia paso a paso, requiere coordinación entre percepción, predicción y decisión; operación de objetos flexibles—ante objetos complejos y no regulares, lograr agarres estables.

La arquitectura unificada trae una nueva ruta de desarrollo. Mediante observación experimental, Zhu Jun afirmó dos fenómenos clave: uno, en comparación con la ruta tradicional Vision-Language-Action (VLA, visión-lenguaje-acción), la eficiencia de uso de datos mejora en un orden de magnitud; dos, mejora la capacidad de generalización para múltiples tareas: bajo un modelo unificado, se puede lograr una generalización eficiente en más de 50 tareas, y el rendimiento no solo no disminuye, sino que aumenta. En comparación, los modelos tradicionales de VLA (como PI0.5) muestran una disminución notable del rendimiento cuando aumenta la cantidad de tareas.

En el nivel de implementación, los dos grandes carriles de conducción autónoma y escenarios industriales verticales alcanzarán un punto de inflexión hacia la comercialización y la capitalización en 2026. Bai Zongyi, socio fundador de Yaoqu Capital, lo dijo directamente: confía en las nuevas oportunidades de la era de la inteligencia con cuerpo—el carril de logística en el tramo final. Ivo Muth, vicepresidente senior de I+D de Audi China, considera que, sobre la inteligencia espacial y los modelos del mundo, el cambio más esencial en el futuro—además de mejorar la seguridad al conducir—también se reflejará en la percepción del contexto y la comodidad al viajar.

(Edición: Wen Jing)

Palabras clave:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.