O modelo mundial deverá fazer avanços rápidos este ano! A condução autónoma pode atingir um ponto de viragem na sua comercialização

LightningPacketLoss · 2026-03-30T17:00:10+00:00

No Fórum Zhongguancun de 2026, Zhu Jun destacou que, com uma arquitetura unificada e suporte ao sistema de dados, o modelo mundial irá avançar rapidamente. Ele enfatizou que a definição atual do modelo mundial é vaga e que é necessário esclarecer as diferenças entre as aplicações de tipo digital e físico, especialmente na área de robótica e pré-treinamento. As futuras inovações tecnológicas centrar-se-ão na interação em tempo real e na capacidade de aprendizagem online, esperando-se que possam suportar mais aplicações inteligentes.

LightningPacketLoss

2026-03-30 17:00:10

Geração de resumo em curso

“Com o impulso conjunto da arquitectura unificada, do sistema de dados e do suporte de capacidade de computação, o modelo do mundo vai registar uma rápida aceleração este ano!”

Na sessão temática “AI Futuro Fórum: Salto · Investimento · Coexistência” do Fórum Anual 2026 de Zhongguancun, realizada a 29 de março, o fundador da Shengshu Technology e vice-diretor do Instituto de Investigação em Inteligência Artificial da Universidade Tsinghua, Zhu Jun, apresentou a perspetiva acima referida.

Como construir

Entretanto, a definição de “modelo do mundo” está a ser alargada e a ficar mais vaga. “É necessário clarificar ainda mais a definição de ‘modelo do mundo’.” Zhu Jun afirmou que, atualmente, muitas investigações estão incompletas. Por exemplo, alguns métodos de geração de vídeo interativo ainda ficam, na essência, limitados à reconstrução do espaço digital, sendo usados principalmente para uma interação unidirecional entre humanos e sistemas e não possuindo capacidade de aprender e executar ações em ambientes reais.

“‘Modelo do mundo’ é dividido por Wu Wei, fundador do espaço das variedades, em duas categorias: uma é o modelo do mundo no mundo digital, cujo foco principal é construir interfaces de interação mais em tempo real; a outra é para o mundo físico, tornando-se o cérebro robótico das máquinas que pode prever. “A capacidade que suporta os dois tipos de modelo do mundo não é a mesma; no mundo digital é preciso mais agradar às preferências dos criadores, enquanto no mundo físico é necessário replicar a física real e a operação dos robôs.”

Tomando como exemplo a condução autónoma e a inteligência incorporada, a condução autónoma recolhe dados em veículos reais para concretizar um ciclo fechado de dados, enquanto os robôs enfrentam o problema de arranque a frio dos dados. Wu Wei analisou que muitas empresas tendem a implementar robôs de forma semelhante à condução autónoma, realizando recolha de dados em ambientes reais através de teleoperação. Embora a qualidade dos dados seja muito elevada, existe um problema de taxa segundo a qual o desempenho do modelo aumenta com a escala de parâmetros ou com o investimento em capacidade de computação. “Para o treino de modelos do mundo, fazer pré-treino com dados em perspetiva de primeira pessoa pode resolver este problema.”

Com base em experiências empresariais, Xu Huazhe, fundador da Pocha Qilong Robot e professor assistente no Instituto de Informação Interdisciplinar da Universidade Tsinghua, apontou que, ao recolher dados em 100 lares, não é possível generalizar para 10000 lares. O pré-treino de robôs precisa de ser feito com vídeos em perspetiva de primeira pessoa para pré-treino, fornecendo uma verdadeira generalização no sentido pleno. Mais especificamente, primeiro definir claramente o que se vai fazer e o que não se vai fazer; depois, iterar ao contrário o sistema, incluindo hardware, controlo de movimento, etc. Por exemplo, a mão do robô Pocha não consegue realizar 21 graus de liberdade, mas consegue generalizar a execução de 10 tarefas e, em seguida, aguardar uma atualização.

Zhu Jun propôs um “quadro unificado de modelo do mundo”, unificando teoricamente a geração cross-modal e as tarefas de ação. Esta unificação não é uma colagem de engenharia, mas sim uma unificação ao nível da estrutura. Numa perspetiva mais macro, independentemente de ser no mundo digital ou no mundo físico, o resultado final será composto por agentes inteligentes de diferentes formas. No mundo físico, os agentes inteligentes possuem “corpo”, enquanto o modelo do mundo é o seu núcleo “centro inteligente”.

Construir um modelo do mundo genérico pode regressar aos princípios fundamentais dos grandes modelos: arquitectura extensível, dados em grande escala e capacidade de computação suficiente. Zhu Jun considera que o modelo do mundo deve adotar uma arquitetura unificada, enquanto os métodos atualmente dominantes tendem, muitas vezes, a ser modularizados e fragmentados: alguns focam-se no ajustamento de trajetórias de ação, outros na predição, e outros aprendem diretamente políticas de controlo.

Rutura tecnológica

Ao falar sobre as possibilidades da tecnologia do modelo do mundo, Zhang Mingxing, professor adjunto da Universidade Tsinghua, afirmou que muitas rotas do modelo do mundo se baseiam nas capacidades de modelos de linguagem e, depois, são transferidas para mais modalidades. No entanto, será que a linguagem é suficiente para modelar o mundo físico, ou será necessário outra linguagem de espaço raso? Atualmente, existe uma divergência teórica. Além disso, ao atingir “telemetria física” ou “visão em primeira pessoa”, será através de treino com dados ou através de espaço físico? A modalidade do espaço físico e a sua implementação ainda carecem de avanços.

Mais concretamente, em 2026, o modelo do mundo deve dar atenção a duas grandes ruturas tecnológicas. Wu Wei disse que a primeira é a capacidade de manipulação e interação em tempo real; a segunda é o pós-treino do modelo do mundo. “Em particular, aprendizagem por reforço e aprendizagem online”, Xu Huazhe explicou em detalhe: fazer com que a aprendizagem por reforço se estenda a 100, 1000 e 10000 robôs, atingindo uma velocidade semelhante à de um ser humano sem perder a taxa de sucesso; além disso, permitir que a inteligência incorporada consiga aprender rapidamente em linha para tarefas estranhas após a implementação.

Combinando com a acumulação de longo prazo em modelos de vídeo, Zhu Jun apresentou uma rota tecnológica mais clara: na camada de base, o Diffusion Transformer (U-ViT) como arquitetura de base unificada; na descodificação no espaço de pixéis, o modelo de geração de vídeo Vidu, para apoiar a criação de conteúdos digitais; na descodificação no espaço de ações, para apoiar a interação incorporada no mundo físico. Isto significa que, com o mesmo modelo de base, é possível suportar simultaneamente as capacidades de geração do mundo digital e as capacidades de ação do mundo físico.

Segundo foi apresentado, a Shengshu Technology validou as suas capacidades em cenários de múltiplas tarefas. Por exemplo: tarefas de operação de código de verificação — simulando a operação do rato por humanos através de um braço mecânico, permitindo reconhecimento de ecrã e cliques precisos; tarefas de tomada de decisão em jogos de tabuleiro — envolvendo planeamento de longo alcance e inferência em vários passos, exigindo coordenação entre perceção, predição e decisão; operação de objetos flexíveis — perante objetos complexos e irregulares, alcançar preensão estável.

A arquitetura unificada traz uma nova via de desenvolvimento. Observando os resultados dos experimentos, Zhu Jun afirmou que há dois fenómenos-chave: primeiro, comparado com a rota tradicional Vision-Language-Action (VLA, visão-linguagem-ação), a eficiência de utilização dos dados aumenta em ordem de grandeza; segundo, a capacidade de generalização em múltiplas tarefas é reforçada — sob um modelo unificado, é possível obter generalização eficiente em mais de 50 tarefas, e o desempenho não diminui, antes aumenta. Em comparação, modelos tradicionais de VLA (como PI0.5) mostram uma degradação significativa de desempenho quando aumenta o número de tarefas.

No nível da implementação, dois grandes setores — condução autónoma e cenários industriais verticais — vão alcançar um ponto de viragem para a comercialização e para a capitalização em 2026. Bai Zongyi, sócio fundador da Yao Tu Capital, foi direto ao dizer que tem expectativas para as novas oportunidades na era da inteligência incorporada — o setor de logística de última milha. Ivo Muth, vice-presidente sénior de I&D da Audi China, considera que, relativamente à inteligência espacial e aos modelos do mundo, a mudança mais central no futuro, além de melhorar a segurança na condução, também se refletirá na perceção do contexto e no conforto durante o transporte.

(Editora: Wen Jing)

Palavras-chave：

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.