ME News ニュース、4月16日(UTC+8)、動察Beatingの監視によると、テンセントは正式に混元3D世界モデル2.0(HY-World 2.0)をリリースし、オープンソース化しました。これはマルチモーダルな世界モデルフレームワークで、テキスト、単一画像、マルチビュー画像、動画入力をサポートし、出力は動画ではなく編集可能な3D資産(メッシュモデル、3Dガウススプラッシュ、点群)であり、直接Unity、Unreal Engine、NVIDIA Isaac Simにインポートできます。モデルの重みとコードはGitHubとHugging Faceでオープンソース化されています。 Genie 3やCosmosなどの動画世界モデルと根本的に異なる点は、動画世界モデルはピクセルレベルの動画を生成し、再生後すぐに消えて編集できないのに対し、HY-World 2.0は持続的に存在する3D資産を生成し、自由な歩行、物理的衝突、二次編集をサポートすることです。テンセントは技術レポートでこの違いを「動画を見て消える」ことと「世界を建てて永久に保存する」ことに要約しています。消費者向けGPUだけでリアルタイムレンダリングが可能で、推論は一度だけ行えばよく、動画世界モデルのように各フレームごとに生成を繰り返す必要はありません。技術的には四つの段階に分かれています:まずHY-Pano 2.0を使って入力から360度全景画像を生成し、次にWorldNavで軌跡計画を行い、その後WorldStereo 2.0で軌跡に沿って世界を拡張し、最後にWorldMirror 2.0で全ての生成された断片を統一された3Dシーンに再構築します。オープンソースの方案では、HY-World 2.0は最初のSOTAレベルの3D世界モデルと称され、その効果はクローズドソースの商用製品Marbleと比較可能です。ただし、現時点ではWorldMirror 2.0(3D再構築モジュール、約12億パラメータ)のコードと重みのみが公開されており、全景生成、軌跡計画、世界拡張の三つのモジュールのコードと重みは「近日公開」と記載されています。ゲーム開発者にとっては、ワンフレーズでレベルのプロトタイプやマップを素早く生成でき、多くの手作業によるモデリング時間を省略できます。具現化知能研究者にとっては、写真から大量にシミュレーショントレーニング環境を生成するコストが大幅に削減されます。テンセントはまた、オンライン体験入口も公開しており、ユーザーはキャラクターを操作して生成された街路や建築物を自由に探索できます。(出典:BlockBeats)
Tencentがオープンソース化した混元世界モデル2.0、一言で生成可能な歩き回れる3D世界を、直接UnityとUEにインポート
ME News ニュース、4月16日(UTC+8)、動察Beatingの監視によると、テンセントは正式に混元3D世界モデル2.0(HY-World 2.0)をリリースし、オープンソース化しました。これはマルチモーダルな世界モデルフレームワークで、テキスト、単一画像、マルチビュー画像、動画入力をサポートし、出力は動画ではなく編集可能な3D資産(メッシュモデル、3Dガウススプラッシュ、点群)であり、直接Unity、Unreal Engine、NVIDIA Isaac Simにインポートできます。モデルの重みとコードはGitHubとHugging Faceでオープンソース化されています。 Genie 3やCosmosなどの動画世界モデルと根本的に異なる点は、動画世界モデルはピクセルレベルの動画を生成し、再生後すぐに消えて編集できないのに対し、HY-World 2.0は持続的に存在する3D資産を生成し、自由な歩行、物理的衝突、二次編集をサポートすることです。テンセントは技術レポートでこの違いを「動画を見て消える」ことと「世界を建てて永久に保存する」ことに要約しています。消費者向けGPUだけでリアルタイムレンダリングが可能で、推論は一度だけ行えばよく、動画世界モデルのように各フレームごとに生成を繰り返す必要はありません。技術的には四つの段階に分かれています:まずHY-Pano 2.0を使って入力から360度全景画像を生成し、次にWorldNavで軌跡計画を行い、その後WorldStereo 2.0で軌跡に沿って世界を拡張し、最後にWorldMirror 2.0で全ての生成された断片を統一された3Dシーンに再構築します。オープンソースの方案では、HY-World 2.0は最初のSOTAレベルの3D世界モデルと称され、その効果はクローズドソースの商用製品Marbleと比較可能です。ただし、現時点ではWorldMirror 2.0(3D再構築モジュール、約12億パラメータ)のコードと重みのみが公開されており、全景生成、軌跡計画、世界拡張の三つのモジュールのコードと重みは「近日公開」と記載されています。ゲーム開発者にとっては、ワンフレーズでレベルのプロトタイプやマップを素早く生成でき、多くの手作業によるモデリング時間を省略できます。具現化知能研究者にとっては、写真から大量にシミュレーショントレーニング環境を生成するコストが大幅に削減されます。テンセントはまた、オンライン体験入口も公開しており、ユーザーはキャラクターを操作して生成された街路や建築物を自由に探索できます。(出典:BlockBeats)