Apple lança modelo de IA LiTo: gera objetos 3D a partir de uma única imagem, IA reproduz fielmente múltiplas perspetivas de iluminação

robot
Geração de resumo em curso

IT之家 3 de março de 2024, notícia, a mídia tecnológica 9to5Mac publicou ontem (16 de março) um artigo informando que a equipe de pesquisa em IA da Apple divulgou um relatório de pesquisa que resolveu um dos principais desafios no campo da reconstrução 3D: reconstruir objetos 3D completos a partir de uma única imagem plana.

O patente descreve um modelo chamado LiTo (Marcador de Campo de Luz de Superfície), que rompe com a limitação dos métodos tradicionais que requerem múltiplas imagens de diferentes ângulos. Após a reconstrução do objeto 3D, quando o usuário troca de diferentes perspectivas de observação, os efeitos de luz e sombra, como reflexos e highlights gerados por esse modelo, ainda mantêm um alto grau de realismo físico e consistência.

O avanço central dessa inovação reside na aplicação do “espaço latente” (Latent Space). No aprendizado de máquina, o espaço latente consegue comprimir informações complexas em vetores matemáticos multidimensionais, reduzindo significativamente o custo computacional.

O modelo LiTo criou uma representação unificada de espaço latente 3D, codificando dados de campo de luz de superfície amostrados aleatoriamente em um conjunto compacto de vetores. Isso significa que o modelo não precisa memorizar rigidamente cada detalhe visual, mas sim descrevê-los matematicamente, ao mesmo tempo em que domina a forma física do objeto e as regras fundamentais de interação da luz com sua superfície.

No funcionamento específico, o codificador do LiTo é responsável por “compactar informações”, convertendo as estruturas geométricas e características visuais relacionadas à perspectiva presentes na imagem de entrada em códigos simplificados no espaço latente.

Em seguida, o decodificador realiza a “descompressão reversa”, usando esses códigos básicos para restaurar completamente o objeto 3D. Esse mecanismo bidirecional permite que o modelo reproduza com precisão efeitos avançados de luz e sombra, como highlights especulares e reflexão de Fresnel sob condições de iluminação complexas.

Para desenvolver esse modelo, os pesquisadores da Apple treinaram intensamente milhares de objetos 3D renderizados sob 150 diferentes ângulos de visão e três condições de iluminação distintas. O sistema extrai continuamente pequenas amostras de dados para treinar o decodificador a reconstruir o objeto completo sob diferentes condições de luz e perspectiva.

Por fim, o modelo possui a capacidade de prever sua representação latente tridimensional apenas a partir de uma única imagem. Nos testes comparativos oficiais divulgados pela Apple, o LiTo superou significativamente o modelo TRELLIS existente na fidelidade de reconstrução de luz e sombra de múltiplos ângulos.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar