Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Launchpad
Anticípate a los demás en el próximo gran proyecto de tokens
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
¡El modelo mundial dará un avance rápido este año! La conducción autónoma podría experimentar un punto de inflexión en su comercialización
“¡Impulsado conjuntamente por una arquitectura unificada, un sistema de datos y el respaldo de potencia de cómputo, el modelo del mundo logrará este año avances rápidos!”
En el marco del Foro Especial del 2026 Foro de Zhongguancun (“Foro del Futuro de la IA: Salto·Inversión·Cohesión”) celebrado el 29 de marzo de 2026, el fundador de Shengshu Technology, Zhu Jun, también subdirector del Instituto de Investigación de Inteligencia Artificial de la Universidad Tsinghua, planteó el punto de vista anterior.
Cómo construir
Mientras tanto, la definición de “modelo del mundo” se está ampliando y volviendo más difusa. “Es necesario aclarar más la definición de ‘modelo del mundo’.” Zhu Jun señaló que, en la actualidad, muchas investigaciones son incompletas. Por ejemplo, algunos métodos de generación de video interactivo, en esencia, todavía se limitan a la reconstrucción del espacio digital; se usan principalmente para la interacción unidireccional entre personas y sistemas, y no cuentan con la capacidad de aprender y ejecutar acciones en entornos reales.
El “modelo del mundo” fue dividido por Wu Wei, fundador del espacio de variedad, en dos tipos: uno es el modelo del mundo en el mundo digital, cuyo enfoque principal es construir interfaces de interacción más en tiempo real; el otro es para el mundo físico, convirtiéndose en un cerebro de robot predecible. “Las capacidades que respaldan estos dos tipos de modelo del mundo no son las mismas: en el mundo digital hay que satisfacer más las preferencias de los creadores; y en el mundo físico, hay que replicar los fenómenos físicos reales y la operación robótica.”
Tomando como ejemplo la conducción autónoma y la inteligencia encarnada, en la conducción autónoma se recopilan datos de vehículos reales para cerrar el ciclo de datos, mientras que los robots se enfrentan al arranque en frío de datos. Wu Wei analizó que muchas empresas tienden a desplegar robots con un enfoque similar al de la conducción autónoma: realizar teleoperación a distancia en entornos reales para recopilar datos. Aunque la calidad de los datos es alta, existe el problema de que la capacidad del modelo crece a una tasa que depende del tamaño de los parámetros o de la inversión en cómputo. “Para el entrenamiento de un modelo del mundo, usar datos con perspectiva de primera persona para el preentrenamiento puede resolver este problema.”
Partiendo de la experiencia empresarial, Xu Huazhe, fundador de Poqiao Robotics y profesor asistente del Instituto de Información Interdisciplinaria de la Universidad Tsinghua, señaló que al recopilar datos en 100 hogares, no se puede generalizar a 10.000 hogares. El preentrenamiento de robots necesita realizarse con videos de primera persona para lograr una generalización con verdadero significado. Concretamente, primero se define qué se hace y qué no; luego se itera el sistema en sentido inverso, incluyendo hardware, control de movimiento, etc. Por ejemplo, la mano del robot Poqiao no puede realizar 21 grados de libertad, pero sí puede generalizar 10 tareas y luego esperar la actualización.
Zhu Jun propuso un “marco unificado de modelo del mundo”, unificando teóricamente la generación multimodal y las tareas de acción. Esta unificación no es una simple unión a nivel de ingeniería, sino una unificación a nivel estructural. Desde una perspectiva más macro, tanto en el mundo digital como en el mundo físico, finalmente estará compuesto por agentes inteligentes con diferentes formas. Los agentes inteligentes en el mundo físico tienen “cuerpo”, mientras que el modelo del mundo es su núcleo “centro inteligente”.
Construir un modelo del mundo general se puede volver a los principios fundamentales de los modelos a gran escala: una arquitectura ampliable, datos a gran escala y potencia de cómputo suficiente. Zhu Jun considera que el modelo del mundo debería usar una arquitectura unificada; y que, en la actualidad, los métodos dominantes suelen ser modulares y fragmentados: algunos se enfocan en ajustar trayectorias de acciones, otros en la predicción, y otros aprenden directamente estrategias de control.
Avance técnico
Al hablar sobre las posibilidades de la tecnología de modelo del mundo, Zhang Mingxing, profesor adjunto de la Universidad Tsinghua, indicó que muchas rutas de modelo del mundo se basan en las capacidades de los modelos de lenguaje y luego se transfieren a más modalidades. Sin embargo, si el lenguaje es suficiente para modelar el mundo físico, o si se necesita otro tipo de lenguaje en un espacio de menor dimensión, sigue siendo una cuestión. Actualmente existen discrepancias teóricas. Además, en cuanto a lograr “telemetría física” o “perspectiva de primera persona”, ¿se llega mediante entrenamiento con datos o mediante espacio físico? La modalidad y la realización del espacio físico siguen esperando avances.
Concretamente, en 2026 el modelo del mundo necesita enfocarse en dos avances técnicos principales. Wu Wei dijo que el primero es la capacidad de manipulación e interacción en tiempo real; y el segundo es el posentrenamiento del modelo del mundo. “En particular, el aprendizaje por refuerzo y el aprendizaje en línea”, Huazhe Xu lo explicó en detalle: hacer que el aprendizaje por refuerzo se extienda a cien, mil y diez mil robots, alcanzando una velocidad similar a la humana sin perder la tasa de éxito; además, permitir que la inteligencia encarnada, incluso después del despliegue, aprenda rápidamente en línea para tareas extrañas.
Combinando la acumulación a largo plazo en modelos de video, Zhu Jun propuso una ruta tecnológica más clara: en la capa base, Diffusion Transformer (U-ViT) como arquitectura de base unificada; en la decodificación en el espacio de píxeles, corresponde al modelo de generación de video Vidu, que sirve para la creación de contenido digital; y en la decodificación en el espacio de acciones, sirve para la interacción encarnada en el mundo físico. Esto significa que, con el mismo modelo base, se puede respaldar tanto la capacidad de generación del mundo digital como la capacidad de acción del mundo físico.
Según se informa, Shengshu Technology verificó su capacidad en escenarios de múltiples tareas. Por ejemplo: tareas de operación de CAPTCHA—mediante un brazo mecánico que simula la forma en que los humanos operan un mouse, se realiza el reconocimiento de pantalla y los clics precisos; tareas de decisión para juegos de mesa—implican planificación a largo alcance y razonamiento de múltiples pasos, requiriendo coordinación entre percepción, predicción y decisión; operación de objetos flexibles—ante objetos complejos e irregulares, lograr agarres estables.
La arquitectura unificada trae nuevas rutas de desarrollo. A partir de observaciones experimentales, Zhu Jun señaló dos fenómenos clave: primero, en comparación con la ruta tradicional Vision-Language-Action (VLA, visión-lenguaje-acción), la eficiencia de uso de datos mejora en uno o más órdenes de magnitud; segundo, la capacidad de generalización para múltiples tareas aumenta, y bajo un modelo unificado se puede lograr una generalización eficiente en más de 50 tareas, con un rendimiento que no solo no disminuye, sino que incluso mejora. En contraste, el desempeño de los modelos tradicionales VLA (como PI0.5) caerá de forma evidente cuando aumente la cantidad de tareas.
A nivel de implementación, los dos grandes frentes de conducción autónoma y escenarios industriales verticales tendrán su punto de inflexión hacia la comercialización y la capitalización en 2026. Bai Zongyi, socio fundador de Yaotu Capital, afirmó con claridad que ve nuevas oportunidades en la era de la inteligencia encarnada: el segmento de logística de extremo a extremo. Ivo Muth, vicepresidente senior de investigación y desarrollo de Audi China, cree que, sobre la inteligencia espacial y el modelo del mundo, el cambio más central en el futuro, además de mejorar la seguridad al conducir, también se reflejará en la percepción del contexto y la comodidad al viajar.
(Edición: Wenjing)
Palabras clave: