VOID es un marco de IA desarrollado en colaboración por el Instituto de Investigación de Netflix y INSAIT, que elimina objetos de videos y recrea el comportamiento físico restante, lanzado como código abierto en abril. Proceso de tres capas: 1) SAM2 / Gemini genera quadmask, marcando el sujeto, áreas superpuestas, zonas afectadas y fondo; 2) La inferencia de la primera etapa se basa en la afinación de CogVideoX-Fun-V1.5; 3) Estabilización opcional con flujo óptico y ruido. Entrenamiento con datos Kubric y HUMOTO, 8 tarjetas A100, inferencia requiere >40GB. Las pruebas de preferencia muestran un VOID del 64.8%, superior a Runway. El artículo no ha sido revisado, proviene de GitHub.

MeNews

2026-04-29 04:25:03

Generación de resúmenes en curso

AIMPACT mensaje, 14 de abril (UTC+8), Netflix Research Institute y la Universidad de Sofía en Bulgaria INSAIT han desarrollado conjuntamente VOID (Video Object and Interaction Deletion), un marco de IA que puede eliminar objetos de un video y simular físicamente el resto de la escena. El 3 de abril, se open source bajo la licencia Apache 2.0 en Hugging Face, siendo la primera herramienta de IA publicada públicamente por Netflix Research Institute.

Las herramientas tradicionales de eliminación de videos son buenas rellenando fondos, corrigiendo sombras y reflejos, pero fallan en escenas donde los objetos están en contacto físico (colisiones, soportes, empujes). La capacidad central de VOID es entender las causas físicas: eliminar una pieza en medio de una fila de fichas de dominó no hará que las fichas siguientes caigan; eliminar a una persona que salta a la piscina no hará que salpique agua; eliminar a alguien que sostiene una guitarra hará que la guitarra caiga naturalmente.

La línea técnica se divide en tres niveles:

Meta’s SAM2 realiza segmentación de objetos, Google Gemini analiza la semántica de la escena, generando una «quadmask» de cuatro valores, que marca los objetos principales, las áreas superpuestas, las áreas afectadas y el fondo, informando al modelo no solo qué eliminar, sino qué otras cosas cambiarán por ello.
La primera fase de inferencia basada en el ajuste fino del Transformer de difusión de 5 mil millones de parámetros CogVideoX-Fun-V1.5-5b-InP de Alibaba, genera trayectorias contrafactuales físicamente coherentes.
La segunda fase opcional, «estabilización de ruido de flujo óptico», usa el movimiento predicho en la primera fase para inicializar el ruido temporal relacionado, evitando deformaciones en objetos en segmentos largos.

Los datos de entrenamiento se generan a partir de dos conjuntos de simulaciones físicas: aproximadamente 1900 conjuntos de datos de dinámica de cuerpos rígidos Kubric y aproximadamente 4500 conjuntos de datos de captura de movimiento humano HUMOTO, entrenados en 8 GPUs A100 de 80GB. En una prueba de preferencia con 25 personas, VOID obtuvo un 64.8% de tasa de selección, superando ampliamente la herramienta comercial Runway con un 18.4%. La inferencia requiere más de 40GB de memoria de GPU (nivel A100), el artículo aún no ha sido revisado por pares, y Netflix no ha anunciado su integración en los procesos de producción. (Fuente: GithHub)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
362.77K Popularidad
#
CryptoMarketsDipSlightly
267.52K Popularidad
#
IsraelStrikesIranBTCPlunges
35.94K Popularidad
#
#DailyPolymarketHotspot
698.82K Popularidad
#
StrategyAccumulates2xMiningRate
139.47M Popularidad

Anclado

Netflix open-source video erasure model VOID: not only removing objects, but also recalculating the physical motion of the remaining objects

Temas de actualidad

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Anclado