Netflix open-source video erasure model VOID: não apenas remove objetos, mas também recalcula o movimento físico dos objetos restantes

robot
Geração de resumo em curso

AIMPACT mensagem, 14 de abril (UTC+8), o Netflix Research Institute em colaboração com a Universidade de Sofia na Bulgária, INSAIT, desenvolveu o VOID (Video Object and Interaction Deletion), uma estrutura de IA capaz de remover objetos de vídeos e simular novamente o comportamento físico do restante da cena. Em 3 de abril, foi lançado sob a licença Apache 2.0 no Hugging Face, sendo a primeira ferramenta de IA de código aberto do Netflix Research Institute.

Ferramentas tradicionais de remoção de vídeos são boas em preencher fundos, corrigir sombras e reflexos, mas enfrentam dificuldades em cenas onde há contato físico entre objetos (colisões, suportes, empurrões). A capacidade central do VOID é compreender as causas físicas: remover uma peça do meio de uma fileira de dominós, e os dominós seguintes não cairão; remover uma pessoa que pula na piscina, a água não espirra; remover alguém segurando uma guitarra, a guitarra cai naturalmente.

A linha de tecnologia é dividida em três camadas:

  1. O SAM2 da Meta realiza segmentação de objetos, o Gemini do Google analisa a semântica da cena, gerando uma «quadmask» de quatro valores, marcando separadamente o objeto principal, a área de sobreposição, a área afetada e o fundo, informando ao modelo não apenas o que remover, mas também o que será alterado por isso

  2. A primeira fase de inferência, baseada no CogVideoX-Fun-V1.5-5b-InP (Transformador de difusão com 5 bilhões de parâmetros da Alibaba), ajustada, gera trajetórias contrafactuais fisicamente plausíveis

  3. Uma segunda fase opcional, «estabilização de ruído de fluxo óptico», usa o movimento previsto na primeira fase para inicializar ruído temporal relacionado, prevenindo deformações de objetos em trechos longos

Os dados de treinamento foram gerados por duas simulações físicas: cerca de 1900 conjuntos de dados de dinâmica de corpos rígidos Kubric e cerca de 4500 conjuntos de dados de captura de movimento humano HUMOTO, treinados em 8 GPUs A100 de 80GB. Em 25 testes de preferência, o VOID obteve uma taxa de 64,8%, superando significativamente a ferramenta comercial Runway, com 18,4%. A inferência requer mais de 40GB de memória de vídeo (nível A100). O artigo ainda não passou por revisão por pares, e o Netflix não anunciou sua incorporação nos processos de produção. (Fonte: GithHub)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar