A festa de financiamento do modelo mundial está em pleno andamento. O capital aposta na pista de IA física de trilhões de dólares

证券时报记者 陈雨康

A tendência recente dos “lagostins” (OpenClaw) demonstra bem a faceta de “tudo é possível” da inteligência artificial (IA): ela pode recolher dados, escrever código, gerar filmes e até assumir o controlo de computadores. No entanto, assim que sai do ecrã, um robô, perante o mundo real, assemelha-se a uma criança imatura: apenas consegue executar ações fixas e baseadas em processos. É assim que o “paradoxo de Moravec” se interpõe no caminho dos seres humanos rumo à inteligência artificial geral (AGI).

O “modelo do mundo” é a chave para resolver este impasse. Ele permite que os robôs compreendam verdadeiramente as leis do mundo físico, dispondo de capacidade de pensar e de raciocinar — e é a via fundamental para concretizar a AGI. Este ano, o premiado com o Prémio Turing, Yang LeCun, fundou uma empresa de modelo do mundo; a empresa de modelo do mundo da “mãe do AI”, Li Feifei, obteve um financiamento avultado; e, no mercado interno, surgiram mais de 20 eventos de financiamento relacionados com modelos do mundo. No sector, muitos afirmam que o modelo do mundo poderá ser uma das “janelas de oportunidade” mais importantes do próximo ciclo de 10 anos da IA.

Vários empresários do sector de IA disseram ao repórter do Securities Times que o modelo do mundo permite que a IA realize efetivamente a compreensão e a interação com o mundo físico, sendo um caminho indispensável para chegar à AGI. Neste momento, o desenvolvimento de modelos do mundo ainda está numa fase inicial; quem conseguir primeiro desbloquear o “motor” dos dados de interação física, poderá conquistar a vantagem de desenvolvimento.

A IA precisa de se enraizar no mundo real

A OpenAI anunciou recentemente o encerramento da aplicação de geração de vídeo Sora e o ajustamento das suas direções estratégicas: a partir de agora, a equipa do Sora vai focar-se na investigação de modelos do mundo.

Ao abandonar a geração de realidade pela IA e, em vez disso, fazer com que a IA compreenda a realidade, a decisão da OpenAI traduz a próxima altura estratégica do sector: os modelos do mundo. Segundo explicações de várias universidades, como a Fudan University, o modelo do mundo compreende a realidade física ao aprender e prever características dinâmicas como movimento, força e relações espaciais a partir de dados sensoriais. Com a ajuda do modelo do mundo, a IA passa do cognitivo e da identificação para a compreensão e o raciocínio — constituindo a base para a interação autónoma eficiente entre a inteligência incorporada e o ambiente objetivo.

O assistente do director do Gabinete de Gestão da Fudan University e director do Departamento de Informática de Gestão e de Inteligência Empresarial, Zhang Cheng, disse ao repórter do Securities Times que a essência do “pensamento” da IA é uma previsão probabilística baseada em estatísticas de dados, carecendo de verdadeira emoção e de uma compreensão profunda do mundo. A raiz do problema reside no facto de o modelo assentar principalmente em dados de linguagem. Quando o modelo aprende o mundo apenas através de texto, os seus limites cognitivos ficam também confinados ao que a linguagem consegue expressar. Em contrapartida, os modelos do mundo permitem que o sistema descreva as leis de funcionamento do ambiente através de informação multimodal, incluindo visão, audição e dinâmica espacial.

O sócio responsável pela auditoria na Região Leste e Oeste do sector automóvel da KPMG China, Miao Zhen, disse ao repórter do Securities Times que o valor central do modelo do mundo reside em construir um “mundo paralelo” virtual que esteja de acordo com regras físicas. Através da compreensão do espaço do ambiente, da previsão por inferência de longo prazo e da geração de decisões, consegue-se realizar a simulação de cenários, previsão de causalidade e cobertura de caudas longas, compensando a fraqueza dos modelos puramente orientados por dados, que têm insuficiente capacidade de generalização em cenários de cauda longa e extrema.

Sem modelos do mundo, o limite de um robô poderá ser a automatização avançada apenas para executar código de forma passiva. He Yao, fundador e CEO da Coowa Technology, enumerou ao repórter do Securities Times os problemas práticos enfrentados pelos robôs de limpeza da empresa na implementação em cenários urbanos: quando o robô encontra uma parede padrão, consegue evitá-la; mas quando se aproxima de um ramo partido ou de um objecto irregular acumulado, como o código pré-definido não tem definições para esse tipo de objecto, o sistema interpreta como obstáculo intransponível, fazendo com que o trabalho pare no local. “Se houver um modelo do mundo, o sistema consegue prever com base na matéria e nas características físicas, planear a trajetória de desvio e até empurrar ligeiramente o objecto com segurança, mantendo uma operação contínua.”

Festa do financiamento dos modelos do mundo está a todo o ritmo

Com base nas perspetivas e potencial dos modelos do mundo, capitais do país e do estrangeiro já apostaram massivamente. Em fevereiro, a empresa de modelos do mundo fundada por Li Feifei concluiu um financiamento de mil milhões de dólares; pouco depois, a startup de modelos do mundo de Yang LeCun, AMI, também concluiu mais de mil milhões de dólares de financiamento.

No mercado interno, de acordo com os dados fornecidos pelo Qichacha, desde o início deste ano ocorreram 25 eventos de financiamento relacionados com modelos do mundo, com um montante total superior a 2,2 mil milhões de yuans. Entre eles, a Jijiashijie anunciou em março a conclusão de um financiamento Pre-B de 1 mil milhões de yuans e, no mesmo mês, anunciou que o seu modelo incorporado de mundo GigaWorld-1 ficou no primeiro lugar do ranking WorldArena.

“Os ‘momentos de febre’ de financiamento dos modelos do mundo mostram que o consenso do sector está a formar-se: a IA vai da realidade digital para o mundo físico, que será o próximo grande campo de batalha.” Um responsável relacionado com a empresa Intellirobot disse ao repórter do Securities Times que, nos últimos 10 anos, a evolução da capacidade da IA ocorreu principalmente nas camadas de perceção e de linguagem. Mas para entrar verdadeiramente no mundo físico, é necessário compreender as leis de funcionamento do mundo físico: relações espaciais, relações causais e atributos físicos.

Este responsável disse ainda que, quando o capital aposta nos modelos do mundo, na essência está a apostar na via de biliões de dólares da IA física. No futuro, a rota tecnológica poderá evoluir de um modelo “tudo numa só” para uma divisão mais especializada do trabalho: os modelos do mundo ficam responsáveis pela intuição física; os modelos de visão—linguagem—ação (VLA) ficam responsáveis pela compreensão semântica; e o controlo de base fica responsável pela execução precisa. Com divisão clara de tarefas, o capital também consegue encontrar pontos de entrada mais precisos.

He Yao disse ao repórter do Securities Times que, desde 2026, os financiamentos intensivos e de elevados montantes dedicados a modelos do mundo mostram que tanto o capital como o sector tecnológico chegaram à mesma conclusão: “a próxima etapa dos grandes modelos de linguagem é o mundo físico”. Os modelos do mundo são um caminho indispensável para a IA física e pertencem ao “momento de ChatGPT” da inteligência incorporada, que está prestes a chegar. Na competição futura da indústria de modelos do mundo, apenas as empresas que controlarem a entrada de dados físicos à escala e conseguirem realizar um ciclo comercial fechado é que conseguirão liderar esta ronda de revolução tecnológica.

Pode tornar os robôs mais parecidos com “humanos”

Nos últimos anos, a AGI digital baseada em grandes modelos de linguagem reconfigurou o mundo digital. Cerca de metade do PIB global está no mundo físico, e a AGI física ainda tem espaço de crescimento praticamente ilimitado. A base para a descolagem da AGI física reside nos modelos do mundo. Com base nas acumulações técnicas anteriores em modelos fim-a-fim e em modelos verticais, e na deposição de dados, este ano várias empresas de IA deslocaram o ponto de apoio do seu negócio para os modelos do mundo.

A Coowa Technology lançou em fevereiro o Coowa WAM 2.0, um modelo universal do mundo. He Yao disse aos repórteres que a disponibilização deste modelo do mundo tem como objetivo resolver os problemas comuns na indústria de “falta de capacidades de generalização” e de “limite máximo de desenvolvimento da indústria”. No passado, a indústria dependia muitas vezes de modelos fim-a-fim movidos por regras ou de modelos fim-a-fim para um único cenário. O modelo WAM 2.0, pelo contrário, concede a entidades de IA física multimodais complexas a capacidade de compreender o senso comum do mundo físico, fazer inferências geométricas e prever causalidade.

Tal como o ciclo de dados iterativos de um grande modelo de linguagem depende da “roda” de dados em textos da Internet, a iteração do modelo do mundo também depende de dados de interação de alto valor produzidos no mundo real por terminais físicos. He Yao disse que a empresa planeia enviar diretamente robôs do tipo “porteiro de cidade” equipados com o modelo WAM 2.0 para as ruas e ruelas da cidade, para trabalho operacional normalizado. Ao mesmo tempo que cria receitas comerciais, vai continuar a devolver dados físicos de alta qualidade do mundo real, retroalimentando a iteração do modelo.

A Intellirobot é uma empresa líder na categoria de robôs de serviço; a sua quota de remessas de robôs de serviço comercial é a primeira a nível mundial. A empresa lançou no ano passado o primeiro modelo VLA do mundo dedicado à indústria de serviços, o KOM2.0.

Um responsável da Intellirobot revelou recentemente ao repórter do Securities Times que a empresa está a explorar ativamente a fusão do modelo VLA com os modelos do mundo. As fraquezas do modelo VLA residem na falta de compreensão causal do mundo físico, dificultando a previsão das consequências físicas provocadas por ações. Os modelos do mundo são a chave para chegar ao “aprendizagem com poucos exemplos” e à “generalização com zero exemplos”. Isso permite que o robô simule mentalmente as consequências das ações e escolha a melhor estratégia.

“Os modelos do mundo ainda são a base para a interação segura entre homem e máquina. Nos cenários de serviço, o robô precisa de prever as consequências das ações — por exemplo, se a força ao entregar um objecto é demasiado intensa. Sem um modelo do mundo, o robô não consegue verdadeiramente compreender estas cadeias causais.” O responsável acima mencionou que “este ano, a empresa vai testar em alguns cenários a introdução da capacidade de previsão dos modelos do mundo, para melhorar a adaptabilidade do robô ao ambiente e a sua segurança”.

A Kepler Robotics (doravante “Kepler”), empresa de Xangai que se dedica a cenários industriais e ao desenvolvimento de “robôs de colarinho azul”, também começou a construir modelos do mundo industriais e modelos do mundo domésticos. O diretor técnico-chefe da Kepler, Xi Ao, disse ao repórter do Securities Times que a empresa planeia primeiro fundir o modelo do mundo industrial com o VLA industrial e validar os seus efeitos através de POCs (verificação de viabilidade) em pequena escala, de modo a preparar a base para uma implementação em grande escala no futuro.

Barreiras de dados podem decidir a competitividade dos modelos do mundo

O ano passado foi apelidado de o “primeiro ano da inteligência incorporada”; ao mesmo tempo em que os robôs exibiam “ornamentos de guerra” sem ser verdadeiramente inteligentes, também ficou exposta a dor de não serem suficientemente inteligentes. À medida que cada vez mais empresas avançam para os modelos do mundo, insiders dizem que 2026 poderá ser o ano em que os modelos do mundo lançam a base para a AGI. Jim Fan, chefe de robótica da NVIDIA, publicou em 2026 que 2026 se tornará o primeiro ano em que grandes modelos do mundo verdadeiramente estabelecerão base para robôs e para uma forma mais geral de IA multimodal.

Apesar das perspetivas amplas e do ritmo de evolução ser significativo, a via dos modelos do mundo ainda se encontra numa fase inicial; ainda não se formou no sector um paradigma tecnológico unificado e maduro. O que também deixa a indústria apreensiva é a escassez de dados físicos de alta qualidade, que restringe de forma significativa a popularização dos modelos do mundo.

He Yao disse que a evolução dos modelos do mundo ficará fortemente vinculada aos três grandes estágios da indústria de inteligência incorporada: a partir da atual transição da inteligência verticalizada, para a colaboração baseada em cenários nos próximos dois anos, e depois para a popularização de cenários domésticos três a cinco anos mais tarde. Neste momento, a indústria está num período crítico de transição da fase um para a fase dois. O principal desafio nesta fase é a extrema escassez de dados reais de interação física de alta qualidade e multimodais.

“Os dados de operações não podem depender totalmente de dados de vídeo da Internet nem de dados de simulação por computador. Ou seja: não se consegue cultivar verdadeiros modelos do mundo numa estufa; dados de simulação apenas na nuvem não conseguem resolver o problema infinito de cauda longa no mundo físico.” He Yao disse.

Um responsável da Intellirobot disse ao repórter que, no curto prazo, a combinação de VLA com aprendizagem por reforço já consegue resolver muitos problemas reais. Mas, no médio prazo para o desenvolvimento de inteligência incorporada, à medida que os robôs entram em ambientes mais abertos e mais complexos (como casa e locais públicos), sistemas sem modelos do mundo vão enfrentar um gargalo de generalização. Nessa altura, os players que tiverem capacidades de modelos do mundo vão formar uma vantagem de geração. No longo prazo, os modelos do mundo serão uma capacidade indispensável para robôs universais.

“A barreira de dados está a formar-se, e a vantagem do pioneiro é crucial. Obter dados físicos de alta qualidade e utilizá-los de forma normativa é o desafio central.” O responsável acima enfatizou que o que o capital está a apostar é se a empresa consegue fazer funcionar o ciclo “dados—modelo—cenário”. Se uma empresa conseguir concluir implantações em escala em cenários reais numa fase inicial, poderá formar uma vantagem do pioneiro.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar