Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
O modelo mundial evolui da previsão para o planejamento, HWM e o desafio do controle de longo prazo
null Introdução
O foco das pesquisas sobre modelos de mundo nos últimos anos inicialmente concentrou-se na aprendizagem de representações e na previsão do futuro. Os modelos primeiro compreendem o mundo e depois deduzem internamente os estados futuros. Essa abordagem já produziu uma série de resultados representativos. O V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — um conjunto de modelos de mundo para vídeo lançado pela Meta em 2025) utilizou mais de 1 milhão de horas de vídeos da internet para pré-treinamento, combinando com uma pequena quantidade de dados de interação com robôs, demonstrando o potencial dos modelos de mundo na compreensão, previsão e planejamento de robôs com zero amostras.
Mas prever não equivale a processar tarefas de longo prazo. Diante de controles multiestágios, os sistemas geralmente enfrentam duas pressões. Uma é que o erro de previsão se acumula continuamente durante rollouts longos (deduções de múltiplos passos consecutivos), levando a desvios progressivos do objetivo. Outra é que o espaço de busca de ações aumenta rapidamente com a expansão do horizonte de planejamento, elevando continuamente o custo de planejamento. O HWM não reescreve a rota de aprendizagem fundamental dos modelos de mundo, mas acrescenta uma estrutura de planejamento hierárquico sobre o modelo de mundo existente com condições de ação, permitindo que o sistema organize primeiro o caminho de fases e depois processe ações locais.
Do ponto de vista técnico, o V-JEPA 2 (mais focado na representação do mundo e na previsão básica), o HWM (mais voltado ao planejamento de longo prazo), e o WAV (World Action Verifier: Modelos de Mundo Autoaperfeiçoáveis via Assimetria Forward-Inverse) representam diferentes abordagens.
一、Por que o controle de longo prazo ainda é o gargalo dos modelos de mundo
A dificuldade do controle de longo prazo fica mais clara ao aplicar em tarefas de robótica. Tomemos como exemplo um braço robótico que pega um copo e o coloca na gaveta: não é uma ação única, mas uma sequência contínua de passos. O sistema precisa se aproximar do objeto, ajustar a postura, realizar a pegada, mover-se até o destino, e então manipular a gaveta e colocar o objeto. Quanto maior a cadeia, mais dois problemas surgem simultaneamente. Um é que o erro de previsão se acumula ao longo do rollout, desviando cada vez mais do objetivo. Outro é que o espaço de busca de ações se expande rapidamente com o aumento do horizonte de planejamento.
O que o sistema geralmente carece não é de previsão local, mas da capacidade de organizar objetivos distantes em uma sequência de fases. Muitas ações, à vista local, parecem estar desviando do objetivo, mas na verdade representam passos intermediários necessários para alcançá-lo. Por exemplo, antes de pegar, levantar o braço; antes de abrir a gaveta, recuar um pouco e ajustar o ângulo.
Em tarefas de demonstração, o modelo de mundo já consegue fazer previsões coerentes. Mas ao entrar em cenários de controle real, o desempenho começa a declinar e os problemas se tornam evidentes. A pressão não vem apenas da representação em si, mas também da imaturidade da camada de planejamento.
二、Como o HWM reconstrói o processo de planejamento
O HWM divide o processo de planejamento, que antes era realizado em uma única camada, em duas. A camada superior é responsável por direções de fase em escalas de tempo mais longas, enquanto a inferior cuida da execução local em escalas de tempo mais curtas. O modelo não planeja apenas em um ritmo, mas simultaneamente em dois ritmos temporais diferentes.
Ao lidar com tarefas longas, métodos de camada única geralmente precisam buscar diretamente na espaço de ações uma cadeia completa de ações. Quanto mais longa a tarefa, maior o custo de busca, e mais fácil o erro de previsão se propagar ao longo de múltiplos passos de rollout. Com a divisão, a camada superior trata apenas da escolha de rotas em escalas de tempo mais longas, enquanto a inferior foca na execução do trecho atual. Assim, uma tarefa longa é dividida em múltiplas tarefas menores, reduzindo a complexidade do planejamento.
Há também um aspecto crucial nesse design: as ações na camada superior não são simplesmente diferenças entre dois estados, mas representam uma codificação que comprime um trecho de ações da camada inferior em uma representação de ação de nível superior. Para tarefas longas, o mais importante não é apenas a diferença entre o início e o fim, mas como as etapas intermediárias estão organizadas. Se a camada superior apenas observar a diferença de deslocamento, pode perder informações sobre o caminho dentro da cadeia de ações.
O HWM exemplifica uma abordagem de organização hierárquica de tarefas. Para uma tarefa multiestágio, o sistema não expande todas as ações de uma só vez, mas primeiro forma um caminho de fases mais grosso, e depois executa e ajusta segmento por segmento. Essa relação hierárquica, ao ser incorporada ao modelo de mundo, faz com que a previsão se torne mais estável e se converta em uma capacidade de planejamento mais confiável.
三、De 0% a 70%, o que os resultados experimentais mostram
Em uma tarefa de captura e colocação no mundo real, definida na publicação, o sistema só recebe a condição final do objetivo, sem fornecer metas intermediárias pré-definidas. Sob essas condições, a taxa de sucesso do HWM atinge 70%, enquanto o modelo de mundo de camada única alcança 0%. Uma tarefa quase impossível de ser concluída na sua forma original torna-se realizável com a introdução do planejamento hierárquico.
Testaram também tarefas de manipulação de objetos e navegação em labirintos simulados. Os resultados indicam que o planejamento hierárquico não só aumenta a taxa de sucesso, como também reduz o custo computacional na fase de planejamento. Em alguns ambientes, o custo de planejamento pode ser reduzido a cerca de um quarto do original, mantendo ou até melhorando a taxa de sucesso.
四、De V-JEPA a HWM e depois a WAV
V-JEPA 2 representa a linha de pesquisa de representação do mundo. Utiliza mais de 1 milhão de horas de vídeos da internet para pré-treinamento, seguido de um treinamento pós-treino de menos de 62 horas com vídeos de robôs, resultando em um modelo de mundo latente condicionado por ações, capaz de compreender, prever e planejar o mundo físico. Demonstra que o modelo pode adquirir representações do mundo por observação em larga escala e transferi-las para o planejamento robótico.
O HWM é o próximo passo. O modelo já possui representação do mundo e capacidade de previsão básica, mas ao enfrentar controle multiestágio, os problemas de erro de acumulação e expansão do espaço de busca surgem rapidamente. O HWM não altera a rota de aprendizagem de representação fundamental, mas acrescenta uma estrutura de planejamento em múltiplas escalas de tempo sobre o modelo de mundo existente. Sua questão central é como organizar objetivos distantes em uma sequência de passos intermediários, e avançar segmento por segmento.
O WAV, por sua vez, foca na capacidade de verificação. Para que o modelo de mundo seja útil em estratégias de otimização e implantação, ele precisa não apenas prever, mas também identificar regiões onde tende a se distorcer, e assim se autoajustar. Seu foco é como o modelo verifica sua própria confiabilidade.
V-JEPA privilegia a representação do mundo, HWM o planejamento de tarefas, e WAV a validação de resultados. Apesar de diferentes pontos de atenção, o objetivo geral é comum. A próxima fase dos modelos de mundo não será apenas previsão interna, mas uma integração de previsão, planejamento e validação em um sistema coeso.
五、Da previsão interna a sistemas executáveis
Muitos trabalhos anteriores com modelos de mundo focaram em melhorar a continuidade da previsão de estados futuros ou a estabilidade da representação interna do mundo. Mas a pesquisa atual já começa a mudar: os sistemas precisam não só formar julgamentos sobre o ambiente, mas também convertê-los em ações, e ajustar-se continuamente após os resultados. Para uma implantação mais realista, é necessário controlar a propagação de erros em tarefas de longo prazo, reduzir o espaço de busca e diminuir o custo de raciocínio.
Essas mudanças também impactam agentes de IA. Muitos agentes já conseguem realizar tarefas de curto alcance, como usar ferramentas, ler arquivos ou executar comandos em sequência. Mas quando as tarefas se tornam longas, multiestágios e requerem replanejamento intermediário, o desempenho cai. Isso não difere fundamentalmente dos desafios no controle robótico, onde a falta de capacidade de organização de caminhos em níveis superiores causa desconexão entre execução local e objetivo global.
A abordagem hierárquica do HWM, com uma camada superior responsável por rotas e metas de fase, uma camada inferior por ações locais e feedback, e uma camada de validação de resultados, provavelmente continuará a aparecer em mais sistemas no futuro. A próxima fase dos modelos de mundo não será apenas prever o futuro, mas organizar previsão, execução e correção em uma trajetória operacional viável.