La fiesta de financiamiento del modelo mundial está en su apogeo. Los capitales apuestan por la pista de IA física de billones de dólares

2026-04-01 00:45:31

证券时报记者陈雨康

La ola de “cangrejos”（OpenClaw） que ha surgido este año muestra la cara de que la inteligencia artificial (IA) puede hacerlo todo: puede capturar datos, escribir código, generar películas y tomar el control de las computadoras. Sin embargo, en cuanto se sale de la pantalla, cuando el robot se enfrenta al mundo real, se asemeja a un niño torpe: solo puede realizar acciones fijas y automatizadas según un proceso. El “paradoja de Moravec” se interpone en el camino de los seres humanos hacia la inteligencia artificial general (AGI).

El modelo del mundo es la clave para resolver este dilema: permite que los robots comprendan de verdad las leyes del mundo físico, con capacidad de pensar y razonar, y constituye una ruta clave para lograr la AGI. Este año, Yang LeCun, ganador del Premio Turing, fundó una empresa de modelos del mundo; la empresa de modelos del mundo de “la madre del IA”, Fei-Fei Li, obtuvo una financiación cuantiosa; en el país han surgido más de 20 eventos de financiación relacionados con modelos del mundo, y dentro de la industria se comenta que el modelo del mundo quizá sea una ventana de oportunidad importante para los próximos 10 años de la IA.

Varios empresarios del sector de la IA le dijeron a un reportero de Securities Times que el modelo del mundo hace que la IA logre realmente la comprensión e interacción con el mundo físico, y que es el camino imprescindible hacia la AGI. En la actualidad, el desarrollo de los modelos del mundo todavía se encuentra en una fase temprana: quien pueda ser primero en accionar la rueda de datos de interacción física, podrá aprovechar primero la ventaja del desarrollo.

La IA necesita echar raíces en el mundo real

OpenAI anunció recientemente el cierre de la aplicación de generación de video Sora y ajustó su dirección estratégica: a partir de ahora, el equipo de Sora se enfocará en la investigación de modelos del mundo.

Abandonar la generación de realidad por parte de la IA y, en su lugar, hacer que la IA comprenda la realidad: la decisión de OpenAI refleja la próxima altura estratégica del sector, que es el modelo del mundo. Según explicaciones de la Universidad Fudan y otras instituciones educativas, el modelo del mundo entiende las propiedades de las cosas, sus leyes de funcionamiento y sus características espaciales en el mundo físico mediante el aprendizaje y la predicción a partir de datos sensoriales de dinámicas como el movimiento, la fuerza y las relaciones espaciales. Con la ayuda de los modelos del mundo, la IA pasa de la cognición y el reconocimiento a la comprensión y el razonamiento; es la base para una interacción objetiva, eficiente y autónoma entre la inteligencia encarnada y el entorno.

Zhang Cheng, subdirector ejecutivo de la Escuela de Administración de la Universidad Fudan y jefe del Departamento de Administración de la Información e Inteligencia Empresarial, dijo en una entrevista con un reportero de Securities Times que la esencia de lo que “piensa” la IA es una predicción probabilística basada en estadísticas de datos; carece de verdadera emoción y de un conocimiento profundo del mundo. La raíz del problema es que el modelo se construye principalmente sobre datos lingüísticos. Cuando el modelo aprende el mundo solo a través de textos, sus límites de conocimiento también quedan restringidos al rango que el lenguaje puede expresar. En cambio, el modelo del mundo permite que el sistema describa las leyes de funcionamiento del entorno mediante información multimodal, incluida la visión, la audición y la dinámica espacial.

Miao Zhen, socia responsable de auditoría para la región Este y la región Oeste en la industria automotriz de KPMG China, dijo en una entrevista con un reportero de Securities Times que el valor central de los modelos del mundo radica en construir un mundo paralelo virtual que se ajuste a reglas físicas. A través de la comprensión del espacio del entorno, la inferencia y predicción a largo plazo de secuencias, y la generación de decisiones mediante la predicción, se logra la simulación de escenarios, la predicción de causalidad y la cobertura de escenarios de cola larga; así se compensa el punto débil de que los modelos impulsados solo por datos no tienen suficiente capacidad de generalización en escenarios extremadamente de cola larga.

Si no existieran los modelos del mundo, el tope de un robot probablemente sería una herramienta avanzada de automatización que ejecuta código pasivamente. He Yao, fundador y CEO de Kuwo Technology, le enumeró al reportero de Securities Times problemas prácticos en el despliegue en escenarios urbanos de robots de limpieza de la compañía: el robot puede evitar las paredes estándar cuando se encuentra con ellas, pero cuando se acerca a ramas rotas o a objetos apilados de forma irregular, como en el código predefinido no existe la definición de este tipo de objetos, el sistema lo determina como un obstáculo no transitable, lo que provoca que el robot se detenga allí mismo. “Si hubiera un modelo del mundo, el sistema podría predecir basándose en el material y las características físicas, planificar una trayectoria de rodeo e incluso, bajo condiciones de seguridad, empujar ligeramente los objetos para atravesarlos y mantener el trabajo continuo”.

El banquete de financiación de los modelos del mundo está en pleno apogeo

Basado en el potencial y las perspectivas de los modelos del mundo, los capitales nacionales e internacionales ya han apostado fuertemente. En febrero de este año, la empresa de modelos del mundo fundada por Fei-Fei Li completó una financiación de 1.000 millones de dólares. Poco después, la startup de modelos del mundo de Yang LeCun, AMI, también completó más de 1.000 millones de dólares en financiación.

En el ámbito nacional, según los datos proporcionados por Qichacha, desde lo que va del año se han producido 25 eventos de financiación relacionados con modelos del mundo, con un monto total que supera los 2.200 millones de yuanes. Entre ellos, el 3 de marzo, el anuncio de Jiejia Shijie sobre la finalización de una ronda Pre-B de 1.000 millones de yuanes; y en el mismo mes también anunció que su modelo encarnado de mundo GigaWorld-1 se colocó en el primer puesto del ranking WorldArena.

“El ‘fiebre de financiación’ de los modelos del mundo indica que se está formando un consenso en la industria: que la IA pase del mundo digital al mundo físico es el próximo gran campo de batalla”, dijo en una entrevista con un reportero de Securities Times un responsable relacionado con Qinglang Intelligent. “En los últimos 10 años, los saltos en las capacidades de la IA ocurrieron principalmente en los niveles de percepción y lenguaje. Pero para entrar de verdad en el mundo físico, es necesario comprender las leyes de funcionamiento del mundo físico: relaciones espaciales, relaciones causales y atributos físicos.

El responsable mencionado dijo que el capital apostar por los modelos del mundo, en esencia, es apostar por el enorme sector de billones del “AI físico”. En el futuro, es posible que la hoja de ruta tecnológica pase de un enfoque unificado hacia una división profesional del trabajo: los modelos del mundo se encargan de la intuición física; los modelos de visión—lenguaje—acción (VLA) se encargan de la comprensión semántica; y el control de nivel inferior se encarga de la ejecución precisa. Con una división clara, el capital también puede encontrar puntos de entrada más precisos.

He Yao dijo en una entrevista con un reportero de Securities Times que la financiación densa y de alto monto dirigida a los modelos del mundo desde 2026 indica que el capital y el sector tecnológico han llegado a un acuerdo: “la siguiente etapa de los grandes modelos de lenguaje es el mundo físico”. Los modelos del mundo son una ruta imprescindible para acceder a la IA física y pertenecen al “momento ChatGPT” de la inteligencia encarnada que está por llegar. En la competencia del sector de modelos del mundo que viene, solo las empresas que controlen la entrada de datos físicos a escala y logren un cierre comercial podrán liderar esta nueva revolución tecnológica.

Pueden hacer que los robots sean más como “personas”

En los últimos años, la AGI digital basada en grandes modelos de lenguaje ha reconfigurado el mundo digital. Aproximadamente la mitad del PIB global está en el mundo físico, y todavía hay un espacio de crecimiento prácticamente ilimitado para la AGI física. La base para que la AGI física despegue reside en los modelos del mundo. Sobre la base de la acumulación tecnológica y el depósito de datos previos en modelos de extremo a extremo y modelos de verticales, este año varias empresas de IA han ajustado sus puntos de apoyo para entrar en los modelos del mundo.

Kuwo Technology lanzó en febrero Coowa WAM 2.0, un modelo del mundo general. He Yao le dijo a un reportero que el lanzamiento de este modelo del mundo busca resolver los problemas comunes de la industria de la inteligencia encarnada, como la “falta de capacidad de generalización” y el “límite del desarrollo de la industria”. Antes, la industria dependía en gran medida de modelos de extremo a extremo impulsados por reglas o de modelos de extremo a extremo de un solo escenario. El modelo WAM 2.0, en cambio, otorga a entidades de IA física de múltiples formas una comprensión común del mundo físico complejo, así como capacidades de inferencia geométrica y predicción causal.

Al igual que los grandes modelos de lenguaje dependen de una rueda de datos impulsada por textos de internet, la iteración del modelo del mundo también depende de datos de interacción de alto valor generados por terminales físicas en el mundo real. He Yao dijo que la empresa planea enviar directamente robots tipo “administrador de la ciudad” con el modelo WAM 2.0 a calles y callejones urbanos para tareas habituales y, al mismo tiempo que crea beneficios comerciales, devolver continuamente datos de alta calidad del mundo físico para retroalimentar la iteración del modelo.

Qinglang Intelligent es una empresa líder en el sector de robots de servicio. Su participación en el volumen de envíos comerciales de robots de servicio es la primera del mundo. La compañía publicó el año pasado el primer modelo VLA del mundo para la industria de servicios: KOM2.0.

Un responsable de Qinglang Intelligent reveló recientemente al reportero de Securities Times que la empresa explora activamente la fusión del modelo VLA con el modelo del mundo. La debilidad del modelo VLA es que carece de comprensión causal del mundo físico, lo que dificulta anticipar las consecuencias físicas de una acción. El modelo del mundo es la clave para el “aprendizaje con pocos ejemplos” y la “generalización sin ejemplos”. Puede hacer que el robot simule las consecuencias de las acciones en su “mente” y elija la estrategia óptima.

“El modelo del mundo sigue siendo la base para lograr una interacción segura entre humanos y robots. En escenarios de servicio, los robots necesitan anticipar las consecuencias de las acciones: por ejemplo, si la fuerza es demasiado intensa al entregar objetos, etc. Sin un modelo del mundo, el robot no puede realmente comprender estas cadenas causales”. El responsable mencionado señaló: “Este año, la empresa probará en algunos escenarios la capacidad de predicción del modelo del mundo para mejorar la adaptabilidad del robot al entorno y su seguridad”.

Kaipule, una empresa de robots de Shanghái (en adelante, “Kaipule”), que se enfoca en escenarios industriales y desarrolla “robots de cuello azul”, también ha comenzado a construir modelos del mundo industriales y modelos del mundo domésticos. El director de tecnología de Kaipule, Xi Ao, dijo en una entrevista con un reportero de Securities Times que la empresa planea primero fusionar el modelo del mundo industrial con el VLA industrial, y verificar su efecto mediante POC (validación de viabilidad) a pequeña escala, para sentar una base para un despliegue a gran escala en el futuro.

Los muros de datos pueden decidir la competitividad de los modelos del mundo

El último año se ha llamado el año cero de la inteligencia encarnada: mientras los robots “hacen acrobacias” en apariencia, también se expuso el problema de que no son lo suficientemente inteligentes. A medida que cada vez más empresas avanzan hacia el despliegue de modelos del mundo, algunos especialistas del sector señalan directamente que 2026 podría ser el año cero en el que se sienten las bases para la AGI. Jim Fan, responsable de robots de Nvidia, publicó un artículo este año en el que afirmaba que 2026 será el primer año en el que los grandes modelos del mundo establezcan de verdad una base para robots y, en un sentido más amplio, para la IA multimodal.

Aunque las perspectivas son amplias y la velocidad de evolución es considerable, el sector de los modelos del mundo todavía se encuentra en una fase temprana; dentro de la industria aún no se ha formado un paradigma tecnológico unificado y maduro. Lo que más preocupa es que hay una escasez de datos físicos del mundo real de alta calidad, lo que limita en gran medida la adopción de los modelos del mundo.

He Yao dijo que la evolución de los modelos del mundo está fuertemente ligada a tres grandes etapas de la industria de la inteligencia encarnada: de la transformación de la inteligencia vertical actual a la colaboración por escenarios durante los próximos dos años, y luego a la popularización en escenarios domésticos de tres a cinco años después. En este momento, la industria se encuentra en el periodo clave de pasar de la primera etapa a la segunda. El desafío principal en la etapa actual es la extrema escasez de datos interactivos reales del mundo físico de alta calidad y multimodales.

“Los datos de operación no pueden depender completamente de datos de video de internet o de datos de simulación por computadora. En otras palabras, no se puede cultivar un modelo del mundo realista en un invernadero; solo con datos de simulación en la nube no se puede resolver el problema interminable de la cola larga del mundo físico”. Dijo He Yao.

Un responsable de Qinglang Intelligent dijo a un reportero que, a corto plazo, la combinación de VLA con aprendizaje por refuerzo ya puede resolver muchos problemas prácticos. Pero, mirando el desarrollo de la inteligencia encarnada a mediano plazo, cuando los robots entren en entornos más abiertos y complejos (como el hogar y lugares públicos), los sistemas que carezcan de modelos del mundo se enfrentarán a un cuello de botella de generalización. Para entonces, los jugadores con capacidad de modelo del mundo formarán una ventaja generacional. A largo plazo, los modelos del mundo serán una capacidad indispensable de los robots generales.

“Se están formando barreras de datos, y la ventaja del primero en llegar es crucial. La obtención y el uso normativo de datos físicos de alta calidad es el desafío central”. El responsable mencionado enfatizó que a lo que el capital está apostando es a si las empresas pueden hacer funcionar la rueda “datos—modelo—escenario”. Si una empresa puede completar un despliegue a escala en escenarios reales primero, puede formar una ventaja de salida.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.