VOID é uma estrutura de IA desenvolvida em colaboração pelo Instituto de Pesquisa da Netflix e INSAIT, que remove objetos de vídeos e recria o comportamento físico restante, lançada em código aberto em abril. Processo de três camadas: 1) SAM2 / Gemini gera uma máscara quad, marcando o objeto principal, áreas de sobreposição, áreas afetadas e o fundo; 2) a primeira fase de inferência é baseada no ajuste fino do CogVideoX-Fun-V1.5; 3) estabilidade opcional com fluxo óptico com ruído. Treinamento com dados Kubric, HUMOTO, usando 8 GPUs A100, inferência requer mais de 40GB. Testes de preferência mostram VOID com 64,8%, superior ao Runway. O artigo não foi revisado por pares, originado do GitHub.

MeNews

2026-04-29 04:25:03

Geração de resumo em curso

AIMPACT mensagem, 14 de abril (UTC+8), o Netflix Research Institute em colaboração com a Universidade de Sofia na Bulgária, INSAIT, desenvolveu o VOID (Video Object and Interaction Deletion), uma estrutura de IA capaz de remover objetos de vídeos e simular novamente o comportamento físico do restante da cena. Em 3 de abril, foi lançado sob a licença Apache 2.0 no Hugging Face, sendo a primeira ferramenta de IA de código aberto do Netflix Research Institute.

Ferramentas tradicionais de remoção de vídeos são boas em preencher fundos, corrigir sombras e reflexos, mas enfrentam dificuldades em cenas onde há contato físico entre objetos (colisões, suportes, empurrões). A capacidade central do VOID é compreender as causas físicas: remover uma peça do meio de uma fileira de dominós, e os dominós seguintes não cairão; remover uma pessoa que pula na piscina, a água não espirra; remover alguém segurando uma guitarra, a guitarra cai naturalmente.

A linha de tecnologia é dividida em três camadas:

O SAM2 da Meta realiza segmentação de objetos, o Gemini do Google analisa a semântica da cena, gerando uma «quadmask» de quatro valores, marcando separadamente o objeto principal, a área de sobreposição, a área afetada e o fundo, informando ao modelo não apenas o que remover, mas também o que será alterado por isso
A primeira fase de inferência, baseada no CogVideoX-Fun-V1.5-5b-InP (Transformador de difusão com 5 bilhões de parâmetros da Alibaba), ajustada, gera trajetórias contrafactuais fisicamente plausíveis
Uma segunda fase opcional, «estabilização de ruído de fluxo óptico», usa o movimento previsto na primeira fase para inicializar ruído temporal relacionado, prevenindo deformações de objetos em trechos longos

Os dados de treinamento foram gerados por duas simulações físicas: cerca de 1900 conjuntos de dados de dinâmica de corpos rígidos Kubric e cerca de 4500 conjuntos de dados de captura de movimento humano HUMOTO, treinados em 8 GPUs A100 de 80GB. Em 25 testes de preferência, o VOID obteve uma taxa de 64,8%, superando significativamente a ferramenta comercial Runway, com 18,4%. A inferência requer mais de 40GB de memória de vídeo (nível A100). O artigo ainda não passou por revisão por pares, e o Netflix não anunciou sua incorporação nos processos de produção. (Fonte: GithHub)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
362.77K Popularidade
#
CryptoMarketsDipSlightly
267.52K Popularidade
#
IsraelStrikesIranBTCPlunges
35.94K Popularidade
#
#DailyPolymarketHotspot
698.82K Popularidade
#
StrategyAccumulates2xMiningRate
139.47M Popularidade

Fixar

Netflix open-source video erasure model VOID: não apenas remove objetos, mas também recalcula o movimento físico dos objetos restantes

Tópicos em destaque

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Fixar