O modelo mundial evolui da previsão para o planejamento, HWM e o desafio do controle de longo prazo

robot
Geração de resumo em curso

null Introdução

O foco das pesquisas sobre modelos de mundo nos últimos anos inicialmente concentrou-se na aprendizagem de representações e na previsão do futuro. Os modelos primeiro compreendem o mundo e depois deduzem internamente os estados futuros. Essa abordagem já produziu uma série de resultados representativos. O V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — um conjunto de modelos de mundo para vídeo lançado pela Meta em 2025) utilizou mais de 1 milhão de horas de vídeos da internet para pré-treinamento, combinando com uma pequena quantidade de dados de interação com robôs, demonstrando o potencial dos modelos de mundo na compreensão, previsão e planejamento de robôs com zero amostras.

Mas prever não equivale a processar tarefas de longo prazo. Diante de controles multiestágios, os sistemas geralmente enfrentam duas pressões. Uma é que o erro de previsão se acumula continuamente durante rollouts longos (deduções de múltiplos passos consecutivos), levando a desvios progressivos do objetivo. Outra é que o espaço de busca de ações aumenta rapidamente com a expansão do horizonte de planejamento, elevando continuamente o custo de planejamento. O HWM não reescreve a rota de aprendizagem fundamental dos modelos de mundo, mas acrescenta uma estrutura de planejamento hierárquico sobre o modelo de mundo existente com condições de ação, permitindo que o sistema organize primeiro o caminho de fases e depois processe ações locais.

Do ponto de vista técnico, o V-JEPA 2 (mais focado na representação do mundo e na previsão básica), o HWM (mais voltado ao planejamento de longo prazo), e o WAV (World Action Verifier: Modelos de Mundo Autoaperfeiçoáveis via Assimetria Forward-Inverse) representam diferentes abordagens.

一、Por que o controle de longo prazo ainda é o gargalo dos modelos de mundo

A dificuldade do controle de longo prazo fica mais clara ao aplicar em tarefas de robótica. Tomemos como exemplo um braço robótico que pega um copo e o coloca na gaveta: não é uma ação única, mas uma sequência contínua de passos. O sistema precisa se aproximar do objeto, ajustar a postura, realizar a pegada, mover-se até o destino, e então manipular a gaveta e colocar o objeto. Quanto maior a cadeia, mais dois problemas surgem simultaneamente. Um é que o erro de previsão se acumula ao longo do rollout, desviando cada vez mais do objetivo. Outro é que o espaço de busca de ações se expande rapidamente com o aumento do horizonte de planejamento.

O que o sistema geralmente carece não é de previsão local, mas da capacidade de organizar objetivos distantes em uma sequência de fases. Muitas ações, à vista local, parecem estar desviando do objetivo, mas na verdade representam passos intermediários necessários para alcançá-lo. Por exemplo, antes de pegar, levantar o braço; antes de abrir a gaveta, recuar um pouco e ajustar o ângulo.

Em tarefas de demonstração, o modelo de mundo já consegue fazer previsões coerentes. Mas ao entrar em cenários de controle real, o desempenho começa a declinar e os problemas se tornam evidentes. A pressão não vem apenas da representação em si, mas também da imaturidade da camada de planejamento.

二、Como o HWM reconstrói o processo de planejamento

O HWM divide o processo de planejamento, que antes era realizado em uma única camada, em duas. A camada superior é responsável por direções de fase em escalas de tempo mais longas, enquanto a inferior cuida da execução local em escalas de tempo mais curtas. O modelo não planeja apenas em um ritmo, mas simultaneamente em dois ritmos temporais diferentes.

Ao lidar com tarefas longas, métodos de camada única geralmente precisam buscar diretamente na espaço de ações uma cadeia completa de ações. Quanto mais longa a tarefa, maior o custo de busca, e mais fácil o erro de previsão se propagar ao longo de múltiplos passos de rollout. Com a divisão, a camada superior trata apenas da escolha de rotas em escalas de tempo mais longas, enquanto a inferior foca na execução do trecho atual. Assim, uma tarefa longa é dividida em múltiplas tarefas menores, reduzindo a complexidade do planejamento.

Há também um aspecto crucial nesse design: as ações na camada superior não são simplesmente diferenças entre dois estados, mas representam uma codificação que comprime um trecho de ações da camada inferior em uma representação de ação de nível superior. Para tarefas longas, o mais importante não é apenas a diferença entre o início e o fim, mas como as etapas intermediárias estão organizadas. Se a camada superior apenas observar a diferença de deslocamento, pode perder informações sobre o caminho dentro da cadeia de ações.

O HWM exemplifica uma abordagem de organização hierárquica de tarefas. Para uma tarefa multiestágio, o sistema não expande todas as ações de uma só vez, mas primeiro forma um caminho de fases mais grosso, e depois executa e ajusta segmento por segmento. Essa relação hierárquica, ao ser incorporada ao modelo de mundo, faz com que a previsão se torne mais estável e se converta em uma capacidade de planejamento mais confiável.

三、De 0% a 70%, o que os resultados experimentais mostram

Em uma tarefa de captura e colocação no mundo real, definida na publicação, o sistema só recebe a condição final do objetivo, sem fornecer metas intermediárias pré-definidas. Sob essas condições, a taxa de sucesso do HWM atinge 70%, enquanto o modelo de mundo de camada única alcança 0%. Uma tarefa quase impossível de ser concluída na sua forma original torna-se realizável com a introdução do planejamento hierárquico.

Testaram também tarefas de manipulação de objetos e navegação em labirintos simulados. Os resultados indicam que o planejamento hierárquico não só aumenta a taxa de sucesso, como também reduz o custo computacional na fase de planejamento. Em alguns ambientes, o custo de planejamento pode ser reduzido a cerca de um quarto do original, mantendo ou até melhorando a taxa de sucesso.

四、De V-JEPA a HWM e depois a WAV

V-JEPA 2 representa a linha de pesquisa de representação do mundo. Utiliza mais de 1 milhão de horas de vídeos da internet para pré-treinamento, seguido de um treinamento pós-treino de menos de 62 horas com vídeos de robôs, resultando em um modelo de mundo latente condicionado por ações, capaz de compreender, prever e planejar o mundo físico. Demonstra que o modelo pode adquirir representações do mundo por observação em larga escala e transferi-las para o planejamento robótico.

O HWM é o próximo passo. O modelo já possui representação do mundo e capacidade de previsão básica, mas ao enfrentar controle multiestágio, os problemas de erro de acumulação e expansão do espaço de busca surgem rapidamente. O HWM não altera a rota de aprendizagem de representação fundamental, mas acrescenta uma estrutura de planejamento em múltiplas escalas de tempo sobre o modelo de mundo existente. Sua questão central é como organizar objetivos distantes em uma sequência de passos intermediários, e avançar segmento por segmento.

O WAV, por sua vez, foca na capacidade de verificação. Para que o modelo de mundo seja útil em estratégias de otimização e implantação, ele precisa não apenas prever, mas também identificar regiões onde tende a se distorcer, e assim se autoajustar. Seu foco é como o modelo verifica sua própria confiabilidade.

V-JEPA privilegia a representação do mundo, HWM o planejamento de tarefas, e WAV a validação de resultados. Apesar de diferentes pontos de atenção, o objetivo geral é comum. A próxima fase dos modelos de mundo não será apenas previsão interna, mas uma integração de previsão, planejamento e validação em um sistema coeso.

五、Da previsão interna a sistemas executáveis

Muitos trabalhos anteriores com modelos de mundo focaram em melhorar a continuidade da previsão de estados futuros ou a estabilidade da representação interna do mundo. Mas a pesquisa atual já começa a mudar: os sistemas precisam não só formar julgamentos sobre o ambiente, mas também convertê-los em ações, e ajustar-se continuamente após os resultados. Para uma implantação mais realista, é necessário controlar a propagação de erros em tarefas de longo prazo, reduzir o espaço de busca e diminuir o custo de raciocínio.

Essas mudanças também impactam agentes de IA. Muitos agentes já conseguem realizar tarefas de curto alcance, como usar ferramentas, ler arquivos ou executar comandos em sequência. Mas quando as tarefas se tornam longas, multiestágios e requerem replanejamento intermediário, o desempenho cai. Isso não difere fundamentalmente dos desafios no controle robótico, onde a falta de capacidade de organização de caminhos em níveis superiores causa desconexão entre execução local e objetivo global.

A abordagem hierárquica do HWM, com uma camada superior responsável por rotas e metas de fase, uma camada inferior por ações locais e feedback, e uma camada de validação de resultados, provavelmente continuará a aparecer em mais sistemas no futuro. A próxima fase dos modelos de mundo não será apenas prever o futuro, mas organizar previsão, execução e correção em uma trajetória operacional viável.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar