Apple lança modelo de IA LiTo: gera objetos 3D a partir de uma única imagem, IA reproduz fielmente múltiplas perspetivas de iluminação

K-LinePoet · 2026-03-24T18:05:06+00:00

A equipa de investigação em IA da Apple lançou um novo modelo chamado LiTo, que reconstrói objetos 3D completos a partir de uma única imagem plana, quebrando a limitação de entrada de múltiplos ângulos. Este modelo utiliza a compressão de informações no espaço latente para reproduzir com precisão efeitos complexos de luz e sombra, aumentando significativamente a fidelidade da reconstrução e superando os modelos tradicionais.

K-LinePoet

2026-03-24 18:05:06

Geração de resumo em curso

IT之家 3 de março de 2024, notícia, a mídia tecnológica 9to5Mac publicou ontem (16 de março) um artigo informando que a equipe de pesquisa em IA da Apple divulgou um relatório de pesquisa que resolveu um dos principais desafios no campo da reconstrução 3D: reconstruir objetos 3D completos a partir de uma única imagem plana.

O patente descreve um modelo chamado LiTo (Marcador de Campo de Luz de Superfície), que rompe com a limitação dos métodos tradicionais que requerem múltiplas imagens de diferentes ângulos. Após a reconstrução do objeto 3D, quando o usuário troca de diferentes perspectivas de observação, os efeitos de luz e sombra, como reflexos e highlights gerados por esse modelo, ainda mantêm um alto grau de realismo físico e consistência.

O avanço central dessa inovação reside na aplicação do “espaço latente” (Latent Space). No aprendizado de máquina, o espaço latente consegue comprimir informações complexas em vetores matemáticos multidimensionais, reduzindo significativamente o custo computacional.

O modelo LiTo criou uma representação unificada de espaço latente 3D, codificando dados de campo de luz de superfície amostrados aleatoriamente em um conjunto compacto de vetores. Isso significa que o modelo não precisa memorizar rigidamente cada detalhe visual, mas sim descrevê-los matematicamente, ao mesmo tempo em que domina a forma física do objeto e as regras fundamentais de interação da luz com sua superfície.

No funcionamento específico, o codificador do LiTo é responsável por “compactar informações”, convertendo as estruturas geométricas e características visuais relacionadas à perspectiva presentes na imagem de entrada em códigos simplificados no espaço latente.

Em seguida, o decodificador realiza a “descompressão reversa”, usando esses códigos básicos para restaurar completamente o objeto 3D. Esse mecanismo bidirecional permite que o modelo reproduza com precisão efeitos avançados de luz e sombra, como highlights especulares e reflexão de Fresnel sob condições de iluminação complexas.

Para desenvolver esse modelo, os pesquisadores da Apple treinaram intensamente milhares de objetos 3D renderizados sob 150 diferentes ângulos de visão e três condições de iluminação distintas. O sistema extrai continuamente pequenas amostras de dados para treinar o decodificador a reconstruir o objeto completo sob diferentes condições de luz e perspectiva.

Por fim, o modelo possui a capacidade de prever sua representação latente tridimensional apenas a partir de uma única imagem. Nos testes comparativos oficiais divulgados pela Apple, o LiTo superou significativamente o modelo TRELLIS existente na fidelidade de reconstrução de luz e sombra de múltiplos ângulos.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.