A pesquisa conjunta de cinco universidades permite que os humanos digitais naveguem autonomamente em cenários 3D com base na visão, com uma taxa de sucesso superior em cerca de 30 pontos percentuais à linha de base ótima

robot
Geração de resumo em curso

ME News Notícias, 14 de abril (UTC+8), de acordo com a monitorização da 1M AI News, uma equipa conjunta da Universidade de Pequim, Universidade Carnegie Mellon, Universidade Tongji, Universidade da Califórnia em Los Angeles e Universidade de Michigan publicou no arXiv o VGHuman, uma estrutura de IA incorporada que permite a um humano digital agir autonomamente em cenários 3D desconhecidos apenas com perceção visual. Anteriormente, os sistemas de humanos digitais dependiam geralmente de roteiros pré-definidos ou de informações privilegiadas de estado, sendo que o ponto de partida do VGHuman é dar aos humanos digitais verdadeiros olhos, permitindo-lhes ver o caminho, planear e agir por si próprios. A estrutura divide-se em duas camadas. A camada World reconstrói um cenário 3D de Gauss com marcações semânticas e malhas de colisão a partir de vídeo monocular, com um design de perceção de oclusões que lhe permite identificar objetos pequenos ocultos mesmo em ambientes exteriores complexos. A camada Agent equipa o humano digital com perceção RGB-D (cor + profundidade) de primeira pessoa, gerando planos através de dicas visuais de perceção espacial e raciocínio iterativo, que por fim são convertidos por um modelo de difusão numa sequência de ações corporais que impulsionam o movimento do personagem. Nos testes de navegação em 200 cenários, em três níveis de dificuldade — caminhos simples, desvio de obstáculos e peões dinâmicos — o VGHuman alcançou uma taxa de sucesso superior em cerca de 30 pontos percentuais às melhores linhas de base como NaVILA, NaVid, Uni-NaVid, mantendo ou reduzindo a taxa de colisões. A estrutura também suporta estilos de movimento como corrida e salto, bem como planeamento de longo alcance para atingir múltiplos objetivos consecutivos. O código e os modelos planeiam ser de código aberto, com um repositório no GitHub já criado. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar