Apple a dévoilé le modèle LiTo : génération d'objets 3D à partir d'une seule image, l'IA reproduit fidèlement les éclairages multi-vues

robot
Création du résumé en cours

IT之家 17 mars – Selon un article publié hier (16 mars) par le média technologique 9to5Mac, l’équipe de recherche en intelligence artificielle d’Apple a publié un rapport de recherche annonçant avoir résolu une problématique clé dans le domaine de la reconstruction 3D : à partir d’une seule image plane, il est désormais possible de reconstruire un objet 3D complet.

Ce brevet décrit un modèle appelé LiTo (Surface Light Field Tokenization), qui brise la limitation des méthodes traditionnelles nécessitant l’entrée d’images prises sous plusieurs angles. Après la reconstruction de l’objet 3D, lorsque l’utilisateur change de point de vue, les effets lumineux tels que les reflets et les hautes lumières générés par ce modèle conservent une grande fidélité physique et une cohérence élevée.

Le cœur de cette avancée réside dans l’application innovante de l’“espace latent” (Latent Space). En apprentissage automatique, l’espace latent permet de compresser des informations complexes en vecteurs mathématiques multidimensionnels, réduisant ainsi considérablement le coût computationnel.

Le modèle LiTo a introduit une représentation unifiée en espace latent 3D, codant des données de champ lumineux de surface échantillonnées aléatoirement en un ensemble de vecteurs compacts. Cela signifie que le modèle n’a pas besoin de mémoriser chaque détail visuel de manière rigide, mais peut plutôt décrire mathématiquement l’objet tout en maîtrisant sa forme physique et les lois fondamentales de l’interaction de la lumière avec sa surface.

Concrètement, l’encodeur LiTo se charge de “compresser l’information”, transformant la structure géométrique et les caractéristiques d’apparence liées à l’angle de vue présentes dans l’image d’entrée en un code succinct dans l’espace latent.

Ensuite, le décodeur effectue une “décompression inverse”, utilisant ces codes fondamentaux pour restaurer intégralement l’objet 3D. Ce mécanisme bidirectionnel permet au modèle de reproduire avec précision des effets lumineux complexes tels que les reflets de surface et la réflexion de Fresnel sous des conditions d’éclairage variées.

Pour développer ce modèle, les chercheurs d’Apple ont entraîné intensément des milliers d’objets 3D rendus sous 150 angles différents et trois conditions d’éclairage distinctes. Le système extrait continuellement de petits échantillons de données pour entraîner le décodeur à restituer l’objet complet sous différents éclairages et perspectives.

Au final, le modèle possède la capacité de prédire sa représentation latente 3D à partir d’une seule image. Lors des tests comparatifs officiels publiés par Apple, LiTo a nettement surpassé le modèle TRELLIS existant en termes de fidélité de restitution des effets lumineux multi-angles.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler