Fundos de topo do Vale do Silício apostam em conjunto! Morgan Stanley divulga análise de dez mil palavras explicando a próxima fronteira da IA — "Modelo Mundial"

SnapshotLaborer · 2026-03-23T06:09:43+00:00

Os grandes modelos esgotaram o caminho da "linguagem" até hoje, com fronteiras cada vez mais claras: são especializados em escrita, pesquisa, edição e programação, mas uma vez que os problemas envolvem espaço tridimensional, evolução temporal e restrições físicas, os paradigmas existentes começam a enfrentar dificuldades. O Morgan Stanley aposta o próximo crescimento em "modelos mundiais" — permitir que a IA aprenda a compreender, simular e tomar decisões em ambientes, com aplicações não apenas em robótica e condução autónoma, mas também transformando indústrias de conteúdo digital como jogos, design e produção audiovisual.De acordo com a plataforma de trading Chasingwind, o analista de ações Adam Jonas da equipa América do Norte do Morgan Stanley escreveu explicitamente no seu último relatório: "AI is moving beyond language toward models that understand, simulate and navigate the physical

SnapshotLaborer

2026-03-23 06:09:43

O grande modelo levou o “linguagem” até hoje, com fronteiras cada vez mais claras: eles são bons em escrever, pesquisar, editar e programar, mas quando o problema envolve espaço tridimensional, evolução temporal e restrições físicas, os paradigmas existentes começam a ficar sobrecarregados. O Morgan Stanley aposta na próxima fase de crescimento em “modelos de mundo” — ensinar a IA a entender, simular e tomar decisões no ambiente, aplicando-se não só em robôs e condução autônoma, mas também na reformulação de jogos, design, produção de filmes e outros conteúdos digitais.

Segundo a Trading台, o analista de ações da equipe da Morgan Stanley na América do Norte, Adam Jonas, afirmou no relatório mais recente: “AI está indo além da linguagem, rumo a modelos que entendem, simulam e navegam pelo mundo físico.” A mensagem subentendida é: na próxima rodada de competição, não será quem conversa mais como humano, mas quem consegue comprimir as leis do mundo real em uma representação interna utilizável e transformá-la em um “motor de imaginação” interativo.

As evidências apresentadas no relatório não dependem de narrativas futurísticas, mas de práticas de engenharia já realizadas: a Waymo usou um modelo de mundo baseado no DeepMind Genie 3 para realizar “milhares de milhões de milhas” de testes virtuais; a Microsoft usou o Muse para transformar o clássico “Quake II” de 1997 em uma versão “totalmente renderizada por IA e jogável”; a Roblox também revelou pesquisas usando modelos de mundo próprios para gerar ambientes imersivos e iterar jogos via linguagem natural. Grandes empresas estão na corrida (DeepMind, Meta, Microsoft, Tesla, Nvidia), e novas startups também estão recrutando talentos e investindo.

Mais interessante ainda, o Morgan Stanley, neste material, foca em duas startups emergentes: a World Labs de Fei-Fei Li, que se concentra em “gerar mundos 3D navegáveis”, e a AMI Labs de Likun Yang, que busca “aprender representações latentes eficientes para previsão e raciocínio”. Por trás dessas duas rotas está a mesma questão: como a IA deve “entender o mundo” e quando essa compreensão pode passar de uma demonstração para uma produtividade real.

De linguagem a física: o que os modelos de mundo precisam preencher é a lacuna do ponto fraco dos LLMs

O relatório descreve o “mundo físico” como um campo de batalha mais desafiador: regido por leis de matéria, termodinâmica, fluidos, iluminação, operando em um espaço tridimensional em constante mudança. Os LLMs são treinados principalmente em textos e suas variações, sendo excelentes em tarefas de escritório (codificação, pesquisa, escrita), mas para perguntas como “o que acontecerá na próxima segunda” ou “qual será o efeito de fazer esse movimento”, o que falta não é o corpus, mas a capacidade de manter uma representação consistente do ambiente a longo prazo e de fazer inferências.

Portanto, o modelo de mundo é definido como uma “representação interna utilizável do ambiente”: ele deve não só reproduzir o que vê, mas também avançar o estado ao longo do tempo e oferecer diferentes ramificações futuras quando as condições de “ação” mudam — uma espécie de “motor de imaginação” da IA, que repete a metáfora do relatório.

Modelos de mundo não são uma coisa só: cinco rotas principais coexistem

O Morgan Stanley divide as abordagens atuais em categorias (com a ressalva de que as fronteiras vão se tornando mais difusas):

Modelos de mundo interativos, condicionados a ações: como “motores de jogo aprendidos”, onde o ambiente muda em tempo real conforme a ação do agente (exemplo: DeepMind Genie).
Geradores de mundos 3D consistentes: focados na geometria espacial e na exploração multi-visual (exemplo: World Labs Marble).
Representações abstratas / modelos não geradores: não buscam gerar imagens pixel a pixel, mas prever estruturas de espaço latente e dinâmicas de alto nível, priorizando eficiência e raciocínio (exemplo: Meta V-JEPA, AMI Labs).
Modelos preditivos de mundos geradores: como “prever a próxima frame/próximo estado”, usados em planejamento, previsão e raciocínio de condução (exemplo: Wayve GAIA, NVIDIA Cosmos Predict).
Motores de simulação com restrições físicas: combinam modelos de mundo com simulação física, motores de física e pipelines de dados para gerar dados sintéticos mais fisicamente coerentes para treinamento de robôs (exemplo: Transfer da NVIDIA Cosmos).

Essa classificação tem um significado prático: embora todos sejam chamados de “modelos de mundo”, alguns buscam criar um mundo navegável, outros comprimir o mundo em um estado computável; suas formas de produto, estruturas de computação e caminhos comerciais são diferentes.

Começando por jogos e produção de conteúdo: substitutos de motores são atraentes, mas ainda distantes

Jogos são o exemplo mais “direto” no relatório: modelos de mundo podem gerar ambientes interativos a partir de poucos prompts, acelerando a produção de conteúdo a outro nível. O exemplo do Microsoft Muse, que criou uma versão jogável de “Quake II” — sem depender de motores tradicionais para renderização quadro a quadro, mas prevendo cada quadro com base na entrada do jogador — é um forte contraste.

Porém, a equipe de análise de jogos do Morgan Stanley (que cita o framework de Matt Cost) não é otimista: a longo prazo, há duas possibilidades — os gigantes atuais integram IA às suas ferramentas para “adaptar” ou serão substituídos/seriamente perturbados por novos paradigmas. A substituição parece mais fácil, pois os modelos atuais já conseguem “gerar mundos jogáveis em linguagem natural”;

O desafio está no futuro: velocidade e custo de computação podem ser resolvidos, mas problemas como “sistemas meta, latência” serão mais difíceis, assim como “determinismo, memória e atualização”, que podem ser obstáculos difíceis na abordagem de modelos de mundo. Isso dá uma janela de oportunidade para os players tradicionais, mas a ameaça de longo prazo permanece.

Condução autônoma e robótica, mais pragmáticos: usar mundos virtuais para “suplementar dados” e “pensar antes de agir”

A estratégia na condução autônoma é mais clara: transferir cenários perigosos, raros e caros do mundo real para o virtual, para rodar em escala. O relatório cita a Waymo, que usou um modelo de mundo baseado no Genie 3 para realizar “milhares de milhões de milhas” de testes virtuais, treinando e validando o sistema em situações raras — que na estrada real são difíceis de encontrar ou perigosas demais.

Para robôs, a lógica é mais de engenharia: modelos de mundo podem resolver duas questões — aumentar a quantidade de dados de treinamento e fazer raciocínio prévio antes da execução. Pesquisas indicam que treinar robôs com dados gerados por modelos de mundo pode ser tão eficaz quanto usar dados de interação real. Mas o Morgan Stanley delimita bem: no curto prazo, modelos de mundo e dados sintéticos serão complementos, não substitutos, dos dados reais.

Os detalhes que realmente importam vêm de “contato e fricção”: o relatório destaca que pequenas quantidades físicas, como força aplicada pelos dedos, diferenças entre estados de atuadores, variações na fricção de superfícies e propriedades materiais, ou até o atrito estático das juntas, podem causar grandes diferenças na transferência de simulação para o mundo real.

Os maiores obstáculos são “estabilidade a longo prazo” e “controle”: há vários obstáculos

O relatório lista desafios específicos, sem rodeios:

Acúmulo de erro e deriva temporal: quanto mais tempo a interação, maior a chance de deslocamento de objetos, deformações geométricas ou desvios nas regras físicas. Mesmo Genie 3, considerado avançado, suporta apenas alguns minutos de interação contínua.
Falta de controle: por mais bonito que seja o visual, se o espaço de ação for limitado a movimentos básicos, o valor do produto será limitado.
Multiagentes e dinâmicas sociais: interações simultâneas de várias pessoas, veículos ou robôs, são muito mais difíceis de modelar do que uma única câmera. DeepMind também aponta isso como um dos principais desafios do Genie 3.
Escala e diversidade de dados: especialmente na robótica, coletar dados de sensores reais é caro e lento.
Falta de padrões de avaliação unificados: como medir a qualidade de interações de longo prazo, sem um padrão aceito, o progresso depende de demonstrações e testes específicos.

Essas restrições definem um ritmo de avanço: os modelos de mundo provavelmente primeiro se espalharão na produção de conteúdo digital, onde há maior tolerância a erros, antes de penetrar em setores que exigem maior precisão física.

Fei-Fei Li aposta: fazer a IA “entender” o espaço tridimensional

A World Labs, fundada por Fei-Fei Li em 2023 e que saiu do modo de invisibilidade em 2024, é apontada pelo Morgan Stanley como representante de “gerar mundos 3D consistentes”. Seu produto principal, Marble, foi lançado em novembro de 2025, com o objetivo de gerar ambientes 3D “permanentes e exploráveis” a partir de textos, imagens, vídeos curtos ou entradas 3D brutas, permitindo edição e expansão.

As funcionalidades parecem uma estação de trabalho voltada à criação e produção: gerar, editar objetos, usar “Chisel” para montar modelos grosseiros e refinar detalhes, expandir regiões, compor múltiplos mundos em cenários maiores, exportar para softwares ou motores externos, além de APIs para desenvolvedores.

Também destaca integração com ferramentas do setor: exportação para Unreal Engine e Unity, conexão com plataformas de simulação como NVIDIA Isaac Sim, além de aplicações em arquitetura, simulação de robôs, etc.

O capital também é destacado: a PitchBook estima que a World Labs levantou cerca de 1,29 bilhão de dólares até agora, e após uma rodada em fevereiro de 2026, a avaliação pós-investimento atingiu aproximadamente 5,4 bilhões de dólares.

Outra rota de Yang Likun: sem renderizar imagens, apenas prever estruturas

A história da AMI Labs é mais de “paradigma de pesquisa”: fundada em março de 2026 por Yann LeCun, ela segue uma abordagem baseada no framework JEPA — não reconstruir cada pixel, mas prever representações latentes de partes ocultas ou futuras, usando estruturas mais abstratas para aprender a evolução do mundo. O Morgan Stanley classifica como “representações abstratas / modelos não geradores”, destacando seu potencial em raciocínio, planejamento e sistemas de IA física (especialmente robótica).

Pouco se sabe sobre produtos específicos da AMI, mas as aplicações possíveis incluem robótica, condução autônoma, análise de vídeos, AR/VR com câmeras, assistentes inteligentes, etc. Quanto ao financiamento, o relatório menciona que a AMI levantou mais de 1 bilhão de dólares em rodada semente, com avaliação acima de 4,5 bilhões de dólares.

Capital e talentos se concentram: a corrida por inteligência espacial já acelerou

O sinal mais importante do relatório do Morgan Stanley não é um parâmetro de modelo ou uma demonstração específica, mas a mudança de paradigma que ele descreve: de grandes empresas como DeepMind, Meta, Microsoft, Tesla, Nvidia, até novas startups, o modelo de mundo está se tornando a “linguagem comum da próxima fase”. Isso explica por que setores como jogos, filmes e design estão passando por uma revolução produtiva, e por que condução autônoma e robótica estão cada vez mais transferindo treinamento, validação e planejamento para ambientes virtuais.

Modelos de mundo não são uma solução plug-and-play universal. A conclusão do relatório é mais um roteiro: os cenários que já funcionam estão surgindo, mas os obstáculos reais — estabilidade a longo prazo, controle, múltiplos agentes, detalhes físicos e sistemas de avaliação — ainda estão na mesa. Quem conseguir transformar esses problemas em um ciclo de engenharia fechado será o divisor de águas na jornada de “do digital ao físico”.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.