IT之家 3月17日の報告によると、テクノロジーメディアの9to5Macは昨日(3月16日)、ブログ記事を公開し、AppleのAI研究チームが研究報告を発表したことを伝えています。それは、3D再構築分野の重要な課題を解決したものであり、単一の平面画像だけで完全な3Dオブジェクトを再構築できるというものです。この特許は、LiTo(表面光場のマーク化)と名付けられた最新モデルを説明しており、従来の方法が必要とした多角度の画像入力の制約を打ち破っています。3Dオブジェクトを再構築した後、ユーザーが異なる視点に切り替えても、このモデルが生成する反射やハイライトなどの光と影の効果は、依然として高度な物理的現実性と一貫性を保っています。この突破の核心は、「潜在空間」(Latent Space)という革新的な応用にあります。機械学習において、潜在空間は複雑な情報を多次元の数学的ベクトルに圧縮し、計算コストを大幅に削減することができます。LiToモデルは、統一された3D潜在表現法を初めて提案し、ランダムにサンプリングされた表面光場データをコンパクトなベクトル集合に符号化します。これにより、モデルはすべての視覚的詳細を暗記する必要がなくなり、数学的に記述することで、オブジェクトの物理的形状と光線と表面の相互作用の基本的な法則を同時に把握できるのです。具体的な動作メカニズムとしては、LiToのエンコーダーは「情報を圧縮」し、入力画像の幾何構造や視点に関連する外観特徴を潜在空間内の簡潔なコードに変換します。次に、デコーダーは「逆圧縮」を行い、これらの基底コードを用いて3Dオブジェクトを完全に復元します。この双方向の仕組みにより、モデルは複雑な照明条件下での鏡面ハイライトやフレネル反射などの高度な光と影の効果を正確に再現できるのです。このモデルを作成するために、Appleの研究者たちは、150の異なる視点と3種類の照明条件下でレンダリングされた数千の3Dオブジェクトを用いて高強度の訓練を行いました。システムは、絶えず一部のデータサンプルを抽出し、異なる照明と視点で完全なオブジェクトを再現できるようにデコーダーを訓練しました。最終的に、このモデルは、単一の画像だけでその3次元潜在表現を予測できる能力を備えました。Appleが公開した公式比較テストでは、LiToは多視点の光と影の再現性において、既存のTRELLISモデルを大きく上回っています。
Apple Releases LiTo Large Model: Generates 3D Objects from Single Images, AI Highly Reproduces Multi-View Lighting Effects
IT之家 3月17日の報告によると、テクノロジーメディアの9to5Macは昨日(3月16日)、ブログ記事を公開し、AppleのAI研究チームが研究報告を発表したことを伝えています。それは、3D再構築分野の重要な課題を解決したものであり、単一の平面画像だけで完全な3Dオブジェクトを再構築できるというものです。
この特許は、LiTo(表面光場のマーク化)と名付けられた最新モデルを説明しており、従来の方法が必要とした多角度の画像入力の制約を打ち破っています。3Dオブジェクトを再構築した後、ユーザーが異なる視点に切り替えても、このモデルが生成する反射やハイライトなどの光と影の効果は、依然として高度な物理的現実性と一貫性を保っています。
この突破の核心は、「潜在空間」(Latent Space)という革新的な応用にあります。機械学習において、潜在空間は複雑な情報を多次元の数学的ベクトルに圧縮し、計算コストを大幅に削減することができます。
LiToモデルは、統一された3D潜在表現法を初めて提案し、ランダムにサンプリングされた表面光場データをコンパクトなベクトル集合に符号化します。これにより、モデルはすべての視覚的詳細を暗記する必要がなくなり、数学的に記述することで、オブジェクトの物理的形状と光線と表面の相互作用の基本的な法則を同時に把握できるのです。
具体的な動作メカニズムとしては、LiToのエンコーダーは「情報を圧縮」し、入力画像の幾何構造や視点に関連する外観特徴を潜在空間内の簡潔なコードに変換します。
次に、デコーダーは「逆圧縮」を行い、これらの基底コードを用いて3Dオブジェクトを完全に復元します。この双方向の仕組みにより、モデルは複雑な照明条件下での鏡面ハイライトやフレネル反射などの高度な光と影の効果を正確に再現できるのです。
このモデルを作成するために、Appleの研究者たちは、150の異なる視点と3種類の照明条件下でレンダリングされた数千の3Dオブジェクトを用いて高強度の訓練を行いました。システムは、絶えず一部のデータサンプルを抽出し、異なる照明と視点で完全なオブジェクトを再現できるようにデコーダーを訓練しました。
最終的に、このモデルは、単一の画像だけでその3次元潜在表現を予測できる能力を備えました。Appleが公開した公式比較テストでは、LiToは多視点の光と影の再現性において、既存のTRELLISモデルを大きく上回っています。