¡El modelo mundial dará un avance rápido este año! La conducción autónoma podría experimentar un punto de inflexión en su comercialización

LightningPacketLoss · 2026-04-06T04:16:32+00:00

En el Foro Zhongguancun 2026, Zhu Jun señaló que bajo una arquitectura unificada y un sistema de datos, el modelo mundial avanzará rápidamente. Destacó que la definición actual del modelo mundial es difusa y que es necesario aclarar las diferencias entre sus aplicaciones en el ámbito digital y físico, especialmente en las necesidades de preentrenamiento en el campo de los robots. Los futuros avances tecnológicos se centrarán en capacidades de interacción en tiempo real y aprendizaje en línea, con la esperanza de respaldar más aplicaciones inteligentes.

LightningPacketLoss

2026-04-06 04:16:32

Generación de resúmenes en curso

“¡Impulsado conjuntamente por una arquitectura unificada, un sistema de datos y el respaldo de potencia de cómputo, el modelo del mundo logrará este año avances rápidos!”

En el marco del Foro Especial del 2026 Foro de Zhongguancun (“Foro del Futuro de la IA: Salto·Inversión·Cohesión”) celebrado el 29 de marzo de 2026, el fundador de Shengshu Technology, Zhu Jun, también subdirector del Instituto de Investigación de Inteligencia Artificial de la Universidad Tsinghua, planteó el punto de vista anterior.

Cómo construir

Mientras tanto, la definición de “modelo del mundo” se está ampliando y volviendo más difusa. “Es necesario aclarar más la definición de ‘modelo del mundo’.” Zhu Jun señaló que, en la actualidad, muchas investigaciones son incompletas. Por ejemplo, algunos métodos de generación de video interactivo, en esencia, todavía se limitan a la reconstrucción del espacio digital; se usan principalmente para la interacción unidireccional entre personas y sistemas, y no cuentan con la capacidad de aprender y ejecutar acciones en entornos reales.

El “modelo del mundo” fue dividido por Wu Wei, fundador del espacio de variedad, en dos tipos: uno es el modelo del mundo en el mundo digital, cuyo enfoque principal es construir interfaces de interacción más en tiempo real; el otro es para el mundo físico, convirtiéndose en un cerebro de robot predecible. “Las capacidades que respaldan estos dos tipos de modelo del mundo no son las mismas: en el mundo digital hay que satisfacer más las preferencias de los creadores; y en el mundo físico, hay que replicar los fenómenos físicos reales y la operación robótica.”

Tomando como ejemplo la conducción autónoma y la inteligencia encarnada, en la conducción autónoma se recopilan datos de vehículos reales para cerrar el ciclo de datos, mientras que los robots se enfrentan al arranque en frío de datos. Wu Wei analizó que muchas empresas tienden a desplegar robots con un enfoque similar al de la conducción autónoma: realizar teleoperación a distancia en entornos reales para recopilar datos. Aunque la calidad de los datos es alta, existe el problema de que la capacidad del modelo crece a una tasa que depende del tamaño de los parámetros o de la inversión en cómputo. “Para el entrenamiento de un modelo del mundo, usar datos con perspectiva de primera persona para el preentrenamiento puede resolver este problema.”

Partiendo de la experiencia empresarial, Xu Huazhe, fundador de Poqiao Robotics y profesor asistente del Instituto de Información Interdisciplinaria de la Universidad Tsinghua, señaló que al recopilar datos en 100 hogares, no se puede generalizar a 10.000 hogares. El preentrenamiento de robots necesita realizarse con videos de primera persona para lograr una generalización con verdadero significado. Concretamente, primero se define qué se hace y qué no; luego se itera el sistema en sentido inverso, incluyendo hardware, control de movimiento, etc. Por ejemplo, la mano del robot Poqiao no puede realizar 21 grados de libertad, pero sí puede generalizar 10 tareas y luego esperar la actualización.

Zhu Jun propuso un “marco unificado de modelo del mundo”, unificando teóricamente la generación multimodal y las tareas de acción. Esta unificación no es una simple unión a nivel de ingeniería, sino una unificación a nivel estructural. Desde una perspectiva más macro, tanto en el mundo digital como en el mundo físico, finalmente estará compuesto por agentes inteligentes con diferentes formas. Los agentes inteligentes en el mundo físico tienen “cuerpo”, mientras que el modelo del mundo es su núcleo “centro inteligente”.

Construir un modelo del mundo general se puede volver a los principios fundamentales de los modelos a gran escala: una arquitectura ampliable, datos a gran escala y potencia de cómputo suficiente. Zhu Jun considera que el modelo del mundo debería usar una arquitectura unificada; y que, en la actualidad, los métodos dominantes suelen ser modulares y fragmentados: algunos se enfocan en ajustar trayectorias de acciones, otros en la predicción, y otros aprenden directamente estrategias de control.

Avance técnico

Al hablar sobre las posibilidades de la tecnología de modelo del mundo, Zhang Mingxing, profesor adjunto de la Universidad Tsinghua, indicó que muchas rutas de modelo del mundo se basan en las capacidades de los modelos de lenguaje y luego se transfieren a más modalidades. Sin embargo, si el lenguaje es suficiente para modelar el mundo físico, o si se necesita otro tipo de lenguaje en un espacio de menor dimensión, sigue siendo una cuestión. Actualmente existen discrepancias teóricas. Además, en cuanto a lograr “telemetría física” o “perspectiva de primera persona”, ¿se llega mediante entrenamiento con datos o mediante espacio físico? La modalidad y la realización del espacio físico siguen esperando avances.

Concretamente, en 2026 el modelo del mundo necesita enfocarse en dos avances técnicos principales. Wu Wei dijo que el primero es la capacidad de manipulación e interacción en tiempo real; y el segundo es el posentrenamiento del modelo del mundo. “En particular, el aprendizaje por refuerzo y el aprendizaje en línea”, Huazhe Xu lo explicó en detalle: hacer que el aprendizaje por refuerzo se extienda a cien, mil y diez mil robots, alcanzando una velocidad similar a la humana sin perder la tasa de éxito; además, permitir que la inteligencia encarnada, incluso después del despliegue, aprenda rápidamente en línea para tareas extrañas.

Combinando la acumulación a largo plazo en modelos de video, Zhu Jun propuso una ruta tecnológica más clara: en la capa base, Diffusion Transformer (U-ViT) como arquitectura de base unificada; en la decodificación en el espacio de píxeles, corresponde al modelo de generación de video Vidu, que sirve para la creación de contenido digital; y en la decodificación en el espacio de acciones, sirve para la interacción encarnada en el mundo físico. Esto significa que, con el mismo modelo base, se puede respaldar tanto la capacidad de generación del mundo digital como la capacidad de acción del mundo físico.

Según se informa, Shengshu Technology verificó su capacidad en escenarios de múltiples tareas. Por ejemplo: tareas de operación de CAPTCHA—mediante un brazo mecánico que simula la forma en que los humanos operan un mouse, se realiza el reconocimiento de pantalla y los clics precisos; tareas de decisión para juegos de mesa—implican planificación a largo alcance y razonamiento de múltiples pasos, requiriendo coordinación entre percepción, predicción y decisión; operación de objetos flexibles—ante objetos complejos e irregulares, lograr agarres estables.

La arquitectura unificada trae nuevas rutas de desarrollo. A partir de observaciones experimentales, Zhu Jun señaló dos fenómenos clave: primero, en comparación con la ruta tradicional Vision-Language-Action (VLA, visión-lenguaje-acción), la eficiencia de uso de datos mejora en uno o más órdenes de magnitud; segundo, la capacidad de generalización para múltiples tareas aumenta, y bajo un modelo unificado se puede lograr una generalización eficiente en más de 50 tareas, con un rendimiento que no solo no disminuye, sino que incluso mejora. En contraste, el desempeño de los modelos tradicionales VLA (como PI0.5) caerá de forma evidente cuando aumente la cantidad de tareas.

A nivel de implementación, los dos grandes frentes de conducción autónoma y escenarios industriales verticales tendrán su punto de inflexión hacia la comercialización y la capitalización en 2026. Bai Zongyi, socio fundador de Yaotu Capital, afirmó con claridad que ve nuevas oportunidades en la era de la inteligencia encarnada: el segmento de logística de extremo a extremo. Ivo Muth, vicepresidente senior de investigación y desarrollo de Audi China, cree que, sobre la inteligencia espacial y el modelo del mundo, el cambio más central en el futuro, además de mejorar la seguridad al conducir, también se reflejará en la percepción del contexto y la comodidad al viajar.

(Edición: Wenjing)

Palabras clave:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta