Tencent lança o Modelo de Mundo HunYuan 2.0 de código aberto, uma frase gera um mundo 3D navegável, diretamente importável para Unity e UE

robot
Geração de resumo em curso

ME News Notícias, 16 de abril (UTC+8), de acordo com o monitoramento do Beating, a Tencent lançou oficialmente e open-soube o modelo de mundo 3D Hyun Yuan 2.0 (HY-World 2.0). Este é uma estrutura de modelo de mundo multimodal, que suporta entrada de texto, uma única imagem, imagens de múltiplos ângulos e vídeos, e não gera vídeos, mas ativos 3D editáveis (modelos de malha, dispersão Gaussiana 3D, nuvens de pontos), que podem ser importados diretamente para Unity, Unreal Engine e NVIDIA Isaac Sim. Os pesos do modelo e o código estão abertos no GitHub e Hugging Face. A diferença fundamental em relação a modelos de mundo de vídeo como Genie 3, Cosmos, é que: os modelos de mundo de vídeo geram vídeos pixel a pixel, que desaparecem após a reprodução e não podem ser editados; HY-World 2.0 gera ativos 3D duradouros, suportando caminhada livre, colisões físicas e edição secundária. Na nota técnica, a Tencent resume essa diferença como “assistir a um vídeo e ele desaparecer” versus “construir um mundo que permanece para sempre”. Pode ser renderizado em tempo real com GPU de consumo, com inferência feita uma única vez, ao contrário dos modelos de mundo de vídeo que precisam gerar cada quadro repetidamente. Tecnicamente, divide-se em quatro fases: primeiro, usa HY-Pano 2.0 para gerar uma imagem panorâmica de 360 graus a partir da entrada, depois usa WorldNav para planejamento de trajetória, então usa WorldStereo 2.0 para expandir o mundo ao longo da trajetória, e por último, usa WorldMirror 2.0 para reconstruir todos os segmentos gerados em um cenário 3D unificado. No esquema open-source, a HY-World 2.0 é considerada o primeiro modelo de mundo 3D de nível SOTA, com desempenho comparável ao produto comercial fechado Marble. No entanto, atualmente apenas o código e os pesos do WorldMirror 2.0 (módulo de reconstrução 3D, cerca de 1,2 bilhão de parâmetros) foram abertos, enquanto os códigos e pesos dos módulos de geração panorâmica, planejamento de trajetória e expansão do mundo estão marcados como “em breve lançamento”. Para desenvolvedores de jogos, isso significa que podem gerar rapidamente protótipos de níveis e mapas com uma única frase, economizando muito tempo de modelagem manual. Para pesquisadores de inteligência incorporada, o custo de gerar ambientes de treinamento de simulação a partir de fotos em lote foi drasticamente reduzido. A Tencent também lançou uma entrada de experiência online, onde os usuários podem manipular personagens para explorar livremente as ruas e edifícios gerados. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar