VOID est un cadre d'IA développé conjointement par l'Institut de recherche de Netflix et l'INSAIT, permettant de supprimer des objets d'une vidéo et de recréer le comportement physique restant, open source en avril. Processus en trois étapes : 1) SAM2 / Gemini génère un quadmask, annotant le sujet, la zone de chevauchement, la zone affectée et l'arrière-plan ; 2) La première étape de l'inférence est basée sur un fine-tuning de CogVideoX-Fun-V1.5 ; 3) Stabilisation optionnelle par bruit de flux optique. Entraînement avec les données Kubric, HUMOTO, 8 cartes A100, inférence nécessitant >40GB. Les tests de préférence montrent VOID à 64,8 %, supérieur à Runway. La publication n'a pas été évaluée par un comité de lecture, provenant de GitHub.

MeNews

2026-04-29 04:25:03

Création du résumé en cours

AIMPACT message, le 14 avril (UTC+8), Netflix Research et l’Université de Sofia en Bulgarie INSAIT ont développé conjointement VOID (Video Object and Interaction Deletion), un cadre d’IA capable de supprimer des objets d’une vidéo et de simuler à nouveau le comportement physique du reste de la scène. Le 3 avril, il a été open source sous licence Apache 2.0 sur Hugging Face, étant le premier outil d’IA publié publiquement par Netflix Research.

Les outils traditionnels d’effacement vidéo sont efficaces pour remplir le fond, corriger les ombres et les reflets, mais échouent dans des scénarios où des objets sont en contact physique (collision, support, poussée). La capacité centrale de VOID est de comprendre la causalité physique : retirer une pièce au milieu d’une rangée de dominos ne fera pas tomber les dominos suivants ; retirer une personne qui saute dans une piscine ne fera pas éclabousser l’eau ; retirer une personne tenant une guitare, la guitare tombera naturellement.

La pipeline technique se divise en trois couches :

SAM2 de Meta effectue la segmentation d’objets, Google Gemini analyse la sémantique de la scène, et génère un « quadmask » à quatre valeurs, marquant respectivement le sujet, la zone de chevauchement, la zone affectée et l’arrière-plan, indiquant au modèle non seulement ce qu’il doit effacer, mais aussi ce qui changera en conséquence.
La première étape d’inférence, basée sur le modèle de diffusion Transformer Inp de CogVideoX-Fun-V1.5-5b d’Alibaba (50 milliards de paramètres), est une inférence fine pour générer des trajectoires contrafactuelles physiquement cohérentes.
La deuxième étape optionnelle, « stabilisation par bruit de flux optique », utilise le mouvement prédit lors de la première étape pour initialiser le bruit temporel, empêchant la déformation des objets dans de longues séquences.

Les données d’entraînement proviennent de deux ensembles simulés physiquement : environ 1900 ensembles de données de dynamique rigide Kubric et environ 4500 ensembles de données de capture de mouvement humain HUMOTO, entraînés sur 8 GPU A100 80GB. Lors de 25 tests de préférence utilisateur, VOID a été choisi à 64,8 %, nettement en tête par rapport à l’outil commercial Runway à 18,4 %. L’inférence nécessite plus de 40 Go de mémoire GPU (niveau A100). La publication n’a pas encore été évaluée par des pairs, et Netflix n’a pas annoncé son intégration dans le flux de production. (Source : GitHub)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
383.78K Popularité
#
#FedHoldsRateButDividesDeepen
10.46K Popularité
#
IsraelStrikesIranBTCPlunges
36.35K Popularité
#
#DailyPolymarketHotspot
711.81K Popularité
#
BitcoinSpotVolumeNewLow
162.65M Popularité

Épingler

Netflix open-source video erasure model VOID : pas seulement supprimer des objets, mais aussi recalculer le mouvement physique des objets restants

Sujets populaires

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Épingler