Tencent open-source le modèle Mondrian 2.0, une phrase générée peut entrer dans un monde 3D, importer directement dans Unity et UE

robot
Création du résumé en cours

ME News Actualités, le 16 avril (UTC+8), selon le monitoring de Dongcha Beating, Tencent a officiellement publié et open-sourcé le modèle mondial 3D Hyun Yuan 2.0 (HY-World 2.0).
Il s’agit d’un cadre de modèle mondial multimodal, supportant le texte, une seule image, des images multi-vues et des vidéos en entrée, avec une sortie qui n’est pas une vidéo, mais des actifs 3D modifiables (modèles de maillage, dispersion gaussienne 3D, nuages de points), pouvant être directement importés dans Unity, Unreal Engine et NVIDIA Isaac Sim.
Les poids du modèle et le code sont open-sourcés sur GitHub et Hugging Face.
La différence fondamentale avec des modèles mondiaux vidéo comme Genie 3, Cosmos, etc., réside dans le fait que :
Les modèles mondiaux vidéo génèrent des vidéos pixel par pixel, qui disparaissent après lecture, et ne peuvent pas être modifiés ;
HY-World 2.0 génère des actifs 3D durables, permettant la marche libre, les collisions physiques et la réédition.
Dans le rapport technique, Tencent résume cette différence comme : « regarder une vidéo puis elle disparaît » contre « construire un monde qui perdure ».
Il peut être rendu en temps réel avec une GPU grand public, avec une inférence nécessitant une seule passe, contrairement aux modèles vidéo qui doivent générer chaque image à chaque frame.
Techniquement, cela se divise en quatre phases : d’abord, utiliser HY-Pano 2.0 pour générer une image panoramique à 360 degrés à partir de l’entrée, puis utiliser WorldNav pour la planification de trajectoire, ensuite utiliser WorldStereo 2.0 pour étendre le monde le long de la trajectoire, et enfin utiliser WorldMirror 2.0 pour reconstruire tous les segments générés en une scène 3D unifiée.
Dans la solution open-source, HY-World 2.0 est considéré comme le premier modèle mondial 3D atteignant un niveau SOTA, avec des résultats comparables au produit commercial fermé Marble.
Cependant, seul le code et les poids de WorldMirror 2.0 (module de reconstruction 3D, environ 1,2 milliard de paramètres) ont été open-sourcés, tandis que le code et les poids des modules de génération panoramique, de planification de trajectoire et d’extension du monde sont marqués comme « à venir ».
Pour les développeurs de jeux, cela signifie qu’ils peuvent rapidement générer des prototypes de niveaux et des cartes en une phrase, économisant beaucoup de temps de modélisation manuelle.
Pour les chercheurs en intelligence incarnée, le coût de génération en masse d’environnements de simulation à partir de photos est considérablement réduit.
Tencent a également lancé une plateforme d’expérience en ligne, permettant aux utilisateurs de manipuler un personnage pour explorer librement les rues et bâtiments générés.
(Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler