Netflix open-source video erasure model VOID : pas seulement supprimer des objets, mais aussi recalculer le mouvement physique des objets restants

robot
Création du résumé en cours

AIMPACT message, le 14 avril (UTC+8), Netflix Research et l’Université de Sofia en Bulgarie INSAIT ont développé conjointement VOID (Video Object and Interaction Deletion), un cadre d’IA capable de supprimer des objets d’une vidéo et de simuler à nouveau le comportement physique du reste de la scène. Le 3 avril, il a été open source sous licence Apache 2.0 sur Hugging Face, étant le premier outil d’IA publié publiquement par Netflix Research.

Les outils traditionnels d’effacement vidéo sont efficaces pour remplir le fond, corriger les ombres et les reflets, mais échouent dans des scénarios où des objets sont en contact physique (collision, support, poussée). La capacité centrale de VOID est de comprendre la causalité physique : retirer une pièce au milieu d’une rangée de dominos ne fera pas tomber les dominos suivants ; retirer une personne qui saute dans une piscine ne fera pas éclabousser l’eau ; retirer une personne tenant une guitare, la guitare tombera naturellement.

La pipeline technique se divise en trois couches :

  1. SAM2 de Meta effectue la segmentation d’objets, Google Gemini analyse la sémantique de la scène, et génère un « quadmask » à quatre valeurs, marquant respectivement le sujet, la zone de chevauchement, la zone affectée et l’arrière-plan, indiquant au modèle non seulement ce qu’il doit effacer, mais aussi ce qui changera en conséquence.

  2. La première étape d’inférence, basée sur le modèle de diffusion Transformer Inp de CogVideoX-Fun-V1.5-5b d’Alibaba (50 milliards de paramètres), est une inférence fine pour générer des trajectoires contrafactuelles physiquement cohérentes.

  3. La deuxième étape optionnelle, « stabilisation par bruit de flux optique », utilise le mouvement prédit lors de la première étape pour initialiser le bruit temporel, empêchant la déformation des objets dans de longues séquences.

Les données d’entraînement proviennent de deux ensembles simulés physiquement : environ 1900 ensembles de données de dynamique rigide Kubric et environ 4500 ensembles de données de capture de mouvement humain HUMOTO, entraînés sur 8 GPU A100 80GB. Lors de 25 tests de préférence utilisateur, VOID a été choisi à 64,8 %, nettement en tête par rapport à l’outil commercial Runway à 18,4 %. L’inférence nécessite plus de 40 Go de mémoire GPU (niveau A100). La publication n’a pas encore été évaluée par des pairs, et Netflix n’a pas annoncé son intégration dans le flux de production. (Source : GitHub)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler