VGHuman é uma estrutura de IA incorporada, publicada na arXiv por uma equipe conjunta da PUC, CMU, Tongji, UCLA e Michigan, que atua autonomamente em cenários 3D desconhecidos com base na visão. A estrutura divide-se em Camada Mundial (um campo Gauss 3D reconstruído com vídeo monocular, incluindo semântica e malhas de colisão, considerando o bloqueio) e Camada de Agente (percepção RGB-D de primeira pessoa, raciocínio iterativo para gerar planos, modelo de difusão convertido em ações corporais completas). Em 200 cenários de teste, a taxa de sucesso é aproximadamente 30 pontos percentuais superior a NaVILA e outras linhas de base, com uma taxa de colisão mais baixa ou igual; suporta ações como pular e correr, bem como planejamento de longo alcance, o código planeja ser de código aberto, e o repositório no GitHub já foi criado.

MeNews

2026-05-01 03:10:18

Geração de resumo em curso

ME News Notícias, 14 de abril (UTC+8), de acordo com a monitorização da 1M AI News, uma equipa conjunta da Universidade de Pequim, Universidade Carnegie Mellon, Universidade Tongji, Universidade da Califórnia em Los Angeles e Universidade de Michigan publicou no arXiv o VGHuman, uma estrutura de IA incorporada que permite a um humano digital agir autonomamente em cenários 3D desconhecidos apenas com perceção visual. Anteriormente, os sistemas de humanos digitais dependiam geralmente de roteiros pré-definidos ou de informações privilegiadas de estado, sendo que o ponto de partida do VGHuman é dar aos humanos digitais verdadeiros olhos, permitindo-lhes ver o caminho, planear e agir por si próprios. A estrutura divide-se em duas camadas. A camada World reconstrói um cenário 3D de Gauss com marcações semânticas e malhas de colisão a partir de vídeo monocular, com um design de perceção de oclusões que lhe permite identificar objetos pequenos ocultos mesmo em ambientes exteriores complexos. A camada Agent equipa o humano digital com perceção RGB-D (cor + profundidade) de primeira pessoa, gerando planos através de dicas visuais de perceção espacial e raciocínio iterativo, que por fim são convertidos por um modelo de difusão numa sequência de ações corporais que impulsionam o movimento do personagem. Nos testes de navegação em 200 cenários, em três níveis de dificuldade — caminhos simples, desvio de obstáculos e peões dinâmicos — o VGHuman alcançou uma taxa de sucesso superior em cerca de 30 pontos percentuais às melhores linhas de base como NaVILA, NaVid, Uni-NaVid, mantendo ou reduzindo a taxa de colisões. A estrutura também suporta estilos de movimento como corrida e salto, bem como planeamento de longo alcance para atingir múltiplos objetivos consecutivos. O código e os modelos planeiam ser de código aberto, com um repositório no GitHub já criado. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
431.81K Popularidade
#
USSeeksStrategicBitcoinReserve
58.68M Popularidade
#
IsraelStrikesIranBTCPlunges
37.16K Popularidade
#
BitcoinETFOptionLimitQuadruples
975.03K Popularidade
#
#FedHoldsRateButDividesDeepen
29.71K Popularidade

Fixar

A pesquisa conjunta de cinco universidades permite que os humanos digitais naveguem autonomamente em cenários 3D com base na visão, com uma taxa de sucesso superior em cerca de 30 pontos percentuais à linha de base ótima

Tópicos em destaque

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Fixar