Netflix open-source video erasure model VOID: not only removing objects, but also recalculating the physical motion of the remaining objects

robot
Generación de resúmenes en curso

AIMPACT mensaje, 14 de abril (UTC+8), Netflix Research Institute y la Universidad de Sofía en Bulgaria INSAIT han desarrollado conjuntamente VOID (Video Object and Interaction Deletion), un marco de IA que puede eliminar objetos de un video y simular físicamente el resto de la escena. El 3 de abril, se open source bajo la licencia Apache 2.0 en Hugging Face, siendo la primera herramienta de IA publicada públicamente por Netflix Research Institute.

Las herramientas tradicionales de eliminación de videos son buenas rellenando fondos, corrigiendo sombras y reflejos, pero fallan en escenas donde los objetos están en contacto físico (colisiones, soportes, empujes). La capacidad central de VOID es entender las causas físicas: eliminar una pieza en medio de una fila de fichas de dominó no hará que las fichas siguientes caigan; eliminar a una persona que salta a la piscina no hará que salpique agua; eliminar a alguien que sostiene una guitarra hará que la guitarra caiga naturalmente.

La línea técnica se divide en tres niveles:

  1. Meta’s SAM2 realiza segmentación de objetos, Google Gemini analiza la semántica de la escena, generando una «quadmask» de cuatro valores, que marca los objetos principales, las áreas superpuestas, las áreas afectadas y el fondo, informando al modelo no solo qué eliminar, sino qué otras cosas cambiarán por ello.

  2. La primera fase de inferencia basada en el ajuste fino del Transformer de difusión de 5 mil millones de parámetros CogVideoX-Fun-V1.5-5b-InP de Alibaba, genera trayectorias contrafactuales físicamente coherentes.

  3. La segunda fase opcional, «estabilización de ruido de flujo óptico», usa el movimiento predicho en la primera fase para inicializar el ruido temporal relacionado, evitando deformaciones en objetos en segmentos largos.

Los datos de entrenamiento se generan a partir de dos conjuntos de simulaciones físicas: aproximadamente 1900 conjuntos de datos de dinámica de cuerpos rígidos Kubric y aproximadamente 4500 conjuntos de datos de captura de movimiento humano HUMOTO, entrenados en 8 GPUs A100 de 80GB. En una prueba de preferencia con 25 personas, VOID obtuvo un 64.8% de tasa de selección, superando ampliamente la herramienta comercial Runway con un 18.4%. La inferencia requiere más de 40GB de memoria de GPU (nivel A100), el artículo aún no ha sido revisado por pares, y Netflix no ha anunciado su integración en los procesos de producción. (Fuente: GithHub)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado