A IA dominou a linguagem. O mundo físico é o próximo

O próximo grande salto na inteligência artificial não virá de modelos de linguagem melhores. Virá de máquinas que compreendem como o mundo físico funciona e como controlá-lo.

Vídeo Recomendado


Passei anos a pensar nisso, primeiro como imunologista em Oxford, estudando como as redes imunológicas aprendem por feedback em vez de instruções, depois como investidor liderando o maior investimento seed da Khosla Ventures desde a OpenAI, num laboratório de modelagem do mundo chamado General Intuition.

A restrição fundamental na IA incorporada não é computação ou arquitetura. É um tipo específico de dados que quase não existe.

Libertando o Gênio

No início deste ano, a Google lançou o Project Genie e fez o mercado de jogos despencar. O mercado interpretou como uma ameaça à Unity, TakeTwo Interactive, Roblox, toda a cadeia de criação de conteúdo—IA a caminho dos desenvolvedores de jogos. Mas reduzir isso a uma disrupção no gaming é como assistir à demonstração do primeiro iPhone e concluir que a Apple vinha substituir a Nokia. O verdadeiro objetivo é dominar todas as cargas de trabalho espaciais do planeta.

O que revelou a mão da Google não é o que o Genie faz bem, mas o que ele compromete: ambientes que duram apenas alguns minutos, latência perceptível, física que se comporta de forma estranha. Por enquanto, essas limitações são aceitáveis quando o verdadeiro propósito não é entretenimento. A Google nos disse explicitamente que o Genie 3 é “um passo importante no caminho para a AGI”, infraestrutura para treinar o SIMA, seu agente generalista que precisa de ambientes diversos e ilimitados para aprender navegação, manipulação de objetos e física do mundo real. Gerar objetos no meio da sessão e alterar condições ambientais em tempo real não é uma funcionalidade de jogo. É um gerador de currículo para aprendizagem por reforço.

O que a Google construiu é uma fábrica de ambientes, um sistema que reduz meses de codificação manual, tradicionalmente necessários para criar simulações de treino, a segundos de prompts de texto.

Além do vidro

Para entender por que essa distinção importa, é preciso ampliar o foco. Apesar de toda a revolução digital, surpreendentemente pouco mudou na nossa interação física com a realidade. O salto do computador de mesa antigo para o smartphone e a arquitetura transformer foi enorme em termos de fluxo de informação. Mas ainda estamos principalmente a tocar em telas de vidro.

Considere o esquilo fora da sua janela, saltando de galho em galho, ajustando-se ao vento e à flexão no voo. Ele possui um modelo interno de física extraordinariamente sofisticado: gravidade, momentum, atrito, e consegue planejar sequências de ações complexas. Ainda assim, não tem linguagem. Ele simplesmente sabe, de uma forma que existia muito antes de poder descrever algo.

A IA quase que completamente ignorou esse tipo de saber. Os modelos de linguagem atuais podem escrever sonetos e depurar código. Mas peça a um deles para dobrar uma toalha e você descobrirá a lacuna entre saber sobre o mundo e saber como agir nele. A linguagem é apenas uma compressão da experiência humana. O texto captura apenas uma fatia estreita do que sabemos.

Modelos do mundo, redes neurais treinadas para entender e prever a realidade física, prometem mudar essa equação. Yann LeCun entende isso e declarou que “os LLMs são basicamente um beco sem saída quando se trata de superinteligência” antes de deixar a Meta para lançar sua própria startup de modelos de mundo. A World Labs de Fei-Fei Li acabou de lançar o Marble, que gera ambientes 3D. Ambos entendem que a inteligência espacial é a próxima fronteira da IA.

Mas nenhum deles resolveu a restrição fundamental: eles não têm os dados para construir agentes.

Treinar um agente requer dados condicionados à ação. Não apenas como o mundo parecia, mas o que alguém fez e o que aconteceu a seguir: observação, decisão, ação, consequência. O ciclo completo. A mudança para agentes exige milhões de horas de decisão humana capturadas na fonte, alinhadas com os estados resultantes, selecionadas para casos extremos.

As mãos como o último gargalo

Os jogos podem ser a resposta improvável. Eles fornecem registros completos da ação humana, cada entrada registrada e rotulada, em ambientes que capturam física e tomada de decisão sob incerteza. Milhões de horas de julgamento humano, já digitalizadas.

O valor mais profundo não é a física. É a intuição humana. Um motor de física modela como um drone se move; não consegue modelar como um operador habilidoso reage quando surpreendido. Na cirurgia, é o tato de como o tecido responde ao bisturi. Treinar com decisão humana captura uma expertise que não pode ser descrita com palavras, apenas mostrada, sentida.

Acertar nisso e as consequências ecoam o que o software fez pela informação.

Quando uma máquina consegue aprender uma tarefa de manipulação a partir de horas de demonstração, em vez de meses de programação, a economia da manufatura vira de cabeça para baixo. A produção em pequenas quantidades torna-se viável. Produtos personalizados custam o que os produtos em massa custam hoje. O conhecimento de um eletricista mestre é implantado em milhares de cidades ao mesmo tempo. O julgamento do melhor cirurgião escala para hospitais rurais que hoje não têm acesso. O gargalo nunca foram bisturis. Era as mãos.

Agricultura, logística, cuidados aos idosos. Cada domínio onde a habilidade física é escassa torna-se um candidato à transformação. O fio condutor: a expertise presa em corpos individuais torna-se transferível.

A revolução digital tornou a informação gratuita. A revolução dos modelos do mundo tornará a capacidade gratuita. Não consigo pensar em uma aposta mais importante a fazer.

As opiniões expressas nos artigos do Fortune.com são exclusivamente dos autores e não refletem necessariamente as opiniões e crenças do Fortune.

**Junte-se a nós na Cúpula de Inovação no Local de Trabalho Fortune **de 19 a 20 de maio de 2026, em Atlanta. A próxima era de inovação no trabalho já começou—e o antigo manual está sendo reescrito. Neste evento exclusivo e de alta energia, os líderes mais inovadores do mundo se reunirão para explorar como IA, humanidade e estratégia convergem para redefinir, mais uma vez, o futuro do trabalho. Inscreva-se agora.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar