Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Launchpad
Anticípate a los demás en el próximo gran proyecto de tokens
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
¡El modelo mundial dará un avance rápido este año! La conducción autónoma podría experimentar un punto de inflexión en su comercialización
“¡Impulsados conjuntamente por una arquitectura unificada, un sistema de datos y el respaldo del poder de cómputo, los modelos del mundo alcanzarán este año avances rápidos!”
En el Foro Temático del año 2026 del Foro Zhongguancun “Foro sobre el Futuro de la IA: Salto·Inversión·Cohesión”, celebrado el 29 de marzo, el fundador de Shengshu Keji, Zhu Jun, también vicepresidente del Instituto de Investigación de Inteligencia Artificial de la Universidad Tsinghua, planteó el punto de vista anterior.
Cómo construir
Al mismo tiempo, la definición de “modelo del mundo” se está ampliando y volviendo más difusa. “Es necesario aclarar aún más la definición de ‘modelo del mundo’”, afirmó Zhu Jun. En la actualidad, muchas investigaciones son incompletas. Por ejemplo, algunos métodos de generación de video interactivo en esencia todavía se limitan a la reconstrucción del espacio digital; se utilizan principalmente para una interacción unidireccional entre personas y sistemas, y no cuentan con la capacidad de aprender y ejecutar acciones en entornos reales.
“Los ‘modelos del mundo’ son divididos en dos categorías por Wu Wei, fundador del espacio de variedades. Una es el modelo del mundo en el mundo digital, cuyo objetivo principal es construir interfaces de interacción más en tiempo real; la otra es para el mundo físico, convirtiéndose en el cerebro robótico predecible. Las capacidades que sustentan estos dos tipos de modelos del mundo no son consistentes: en el mundo digital hay que satisfacer más las preferencias de los creadores, mientras que en el mundo físico hay que replicar la física y las operaciones reales de los robots”.
Tomemos como ejemplo la conducción autónoma y la inteligencia con cuerpo. La conducción autónoma recopila datos de vehículos reales para lograr un ciclo cerrado de datos, mientras que los robots se enfrentan al arranque en frío de datos. Wu Wei analizó que muchas empresas tienden a desplegar robots de manera similar a la conducción autónoma: realizar teleoperación en entornos reales para recopilar datos. Aunque la calidad de los datos es muy alta, existe un problema de que el rendimiento del modelo crece a una tasa que depende del tamaño de los parámetros o de la inversión en cómputo. “Para el entrenamiento de modelos del mundo, usar datos con perspectiva en primera persona para el preentrenamiento puede resolver este problema”.
Partiendo de la experiencia empresarial, Xu Huazhe, fundador de Po Poji Robot y profesor asistente del Instituto de Información Interdisciplinaria de la Universidad Tsinghua, señaló que al recopilar datos en 100 hogares, no es posible generalizar a 10000 hogares. El preentrenamiento de robots necesita usar videos en primera persona para el preentrenamiento, proporcionando una generalización en un sentido realmente significativo. En concreto, primero se define qué hacer y qué no hacer; después se itera en sentido inverso el sistema, incluyendo hardware, control de movimiento, etc. Por ejemplo, la mano del robot Po Poji no puede lograr 21 grados de libertad, pero sí puede hacer que 10 cosas se generalicen y luego esperar la actualización.
Zhu Jun propuso un “marco unificado de modelos del mundo”, unificando teóricamente la generación multimodal y las tareas de acción. Esta unificación no es una simple integración por ingeniería, sino una unificación a nivel estructural. Desde una perspectiva más macro, tanto en el mundo digital como en el mundo físico, al final estarán compuestos por agentes inteligentes de distintas formas. Los agentes en el mundo físico poseen “un cuerpo”, mientras que el modelo del mundo es su núcleo “centro inteligente”.
Construir un modelo del mundo general puede volver a los primeros principios del gran modelo: una arquitectura ampliable, grandes cantidades de datos y suficiente poder de cómputo. Zhu Jun cree que el modelo del mundo debe adoptar una arquitectura unificada, mientras que, en la actualidad, los métodos dominantes suelen ser modulares y fragmentados: algunos se centran en ajustar trayectorias de acciones, otros en predecir, y otros aprenden directamente estrategias de control.
Avances tecnológicos
Al hablar sobre la posibilidad de la tecnología de modelos del mundo, Zhang Mingxing, profesor adjunto de la Universidad Tsinghua, dijo que muchas rutas de modelos del mundo se basan en las capacidades de los modelos de lenguaje y luego se transfieren a más modalidades. Sin embargo, ¿el lenguaje es suficiente para modelar el mundo físico? ¿O se necesita otro tipo de lenguaje de espacio poco profundo? Actualmente existen divergencias teóricas. Además, ¿se logra “telemétrica física” o “vista en primera persona” mediante entrenamiento con datos o mediante el espacio físico? Todavía hay que superar los modos del espacio físico y su implementación.
En concreto, en 2026, los modelos del mundo deben enfocarse en dos grandes avances tecnológicos. Wu Wei señaló que uno es la capacidad de manipulación e interacción en tiempo real, y el otro es el entrenamiento posterior de modelos del mundo. “En particular, el aprendizaje por refuerzo y el aprendizaje en línea”, Xu Huazhe lo explicó de manera específica: hacer que el aprendizaje por refuerzo se extienda a cien, mil y diez mil robots, y lograr una velocidad similar a la humana sin perder la tasa de éxito; además, permitir que la inteligencia con cuerpo, después de desplegarse, aún pueda aprender rápidamente en línea para tareas extrañas.
Combinando la acumulación a largo plazo en modelos de video, Zhu Jun propuso una ruta tecnológica más clara: en la capa base, Diffusion Transformer (U-ViT) como arquitectura de base unificada; en la decodificación del espacio de píxeles, correspondiente al modelo de generación de video Vidu, para servir a la creación de contenido digital; en la decodificación del espacio de acciones, para servir a la interacción con cuerpo en el mundo físico. Esto significa que el mismo modelo base puede respaldar simultáneamente la capacidad generativa del mundo digital y la capacidad de acciones del mundo físico.
Según la introducción, Shengshu Keji ha verificado su capacidad en escenarios de múltiples tareas. Por ejemplo: tarea de operación de captcha—mediante un brazo mecánico que simula la operación humana del mouse, se realiza el reconocimiento de pantalla y clics precisos; tarea de toma de decisiones en juegos—que involucra planificación de largo alcance e inferencia paso a paso, requiere coordinación entre percepción, predicción y decisión; operación de objetos flexibles—ante objetos complejos y no regulares, lograr agarres estables.
La arquitectura unificada trae una nueva ruta de desarrollo. Mediante observación experimental, Zhu Jun afirmó dos fenómenos clave: uno, en comparación con la ruta tradicional Vision-Language-Action (VLA, visión-lenguaje-acción), la eficiencia de uso de datos mejora en un orden de magnitud; dos, mejora la capacidad de generalización para múltiples tareas: bajo un modelo unificado, se puede lograr una generalización eficiente en más de 50 tareas, y el rendimiento no solo no disminuye, sino que aumenta. En comparación, los modelos tradicionales de VLA (como PI0.5) muestran una disminución notable del rendimiento cuando aumenta la cantidad de tareas.
En el nivel de implementación, los dos grandes carriles de conducción autónoma y escenarios industriales verticales alcanzarán un punto de inflexión hacia la comercialización y la capitalización en 2026. Bai Zongyi, socio fundador de Yaoqu Capital, lo dijo directamente: confía en las nuevas oportunidades de la era de la inteligencia con cuerpo—el carril de logística en el tramo final. Ivo Muth, vicepresidente senior de I+D de Audi China, considera que, sobre la inteligencia espacial y los modelos del mundo, el cambio más esencial en el futuro—además de mejorar la seguridad al conducir—también se reflejará en la percepción del contexto y la comodidad al viajar.
(Edición: Wen Jing)
Palabras clave: