Meta AI lance le modèle de monde prédictif d'intégration conjointe pour la planification physique JEPA-WMs

Nouvelles ME : le 3 avril (UTC+8), l’équipe de recherche Meta AI Research a publié le modèle de world model JEPA-WMs par prédiction d’encodage conjoint pour la planification physique, ainsi que ses recherches associées. Cette étude examine les facteurs clés qui expliquent la réussite du modèle et fournit une implémentation complète en PyTorch, des jeux de données et des modèles préentraînés. Les modèles publiés incluent le modèle central JEPA-WM ainsi que, en tant que références, les modèles DINO-WM et V-JEPA-2-AC(fixed), couvrant plusieurs environnements d’opérations robotiques et de navigation, tels que DROID & RoboCasa, Metaworld, Push-T, PointMaze et Wall. Le modèle utilise des encodeurs visuels, notamment DINOv3 ViT-L/16, DINOv2 ViT-S/14 et V-JEPA-2 ViT-G/16 ; la résolution d’entrée des images est principalement de 224×224 ou 256×256. Le projet propose également une tête de décodeur optionnelle VM2M pour la visualisation et le décodage de trajectoires, mais souligne que ce décodeur n’est pas nécessaire pour l’entraînement d’un world model ni pour réaliser une évaluation de la planification. Toutes les ressources sont rendues publiques sur GitHub, Hugging Face et arXiv. (Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler