VOID adalah kerangka kerja AI yang dikembangkan secara bersama oleh Netflix Research dan INSAIT untuk menghapus objek dari video dan mereproduksi perilaku fisik yang tersisa, dirilis sebagai open source pada bulan April. Tiga lapisan proses: 1) SAM2/ Gemini menghasilkan quadmask, menandai objek utama, area tumpang tindih, area yang terpengaruh, dan latar belakang; 2) inferensi tahap pertama didasarkan pada fine-tuning CogVideoX-Fun-V1.5; 3) stabilisasi dengan noise aliran cahaya opsional. Pelatihan menggunakan data Kubric, HUMOTO, dengan 8 GPU A100, inferensi membutuhkan >40GB. Pengujian preferensi menunjukkan VOID 64,8%, lebih tinggi dari Runway. Makalah belum melalui review, berasal dari GitHub.

MeNews

2026-04-29 04:25:03

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 14 April (UTC+8), Netflix Research Institute dan Universitas Sofia Bulgaria INSAIT secara bersama mengembangkan VOID (Video Object and Interaction Deletion), sebuah kerangka AI yang mampu menghapus objek dari video dan mensimulasikan ulang perilaku fisik sisa adegan. Pada 3 April, dirilis secara open source di Hugging Face dengan lisensi Apache 2.0, ini adalah alat AI pertama yang dirilis secara publik oleh Netflix Research Institute.

Alat penghapus video tradisional mahir mengisi latar belakang, memperbaiki bayangan dan pantulan, tetapi mengalami kesulitan saat menghadapi adegan di mana objek berinteraksi secara fisik (tabrakan, penopang, dorongan). Kemampuan inti VOID adalah memahami sebab-akibat fisik: menghapus satu bagian dari rangkaian domino tidak akan menyebabkan domino selanjutnya jatuh; menghapus orang yang melompat ke kolam tidak akan menyebabkan riak air; menghapus orang yang memegang gitar akan membuat gitar jatuh secara alami.

Rangkaian teknologi terbagi menjadi tiga lapisan:

Meta’s SAM2 melakukan segmentasi objek, Google Gemini menganalisis semantik adegan, menghasilkan “quadmask” empat nilai, menandai subjek, area tumpang tindih, area yang terpengaruh, dan latar belakang, memberi tahu model tidak hanya apa yang harus dihapus, tetapi juga apa yang akan berubah karena itu
Inferensi tahap pertama yang didasarkan pada model fine-tuned dari Alibaba CogVideoX-Fun-V1.5-5b-InP (Transformer difusi dengan 5 miliar parameter), menghasilkan lintasan kontra-faktual yang secara fisik masuk akal
Tahap kedua opsional “stabilisasi noise aliran optik”, menggunakan gerakan yang diprediksi dari tahap pertama untuk menginisialisasi noise terkait waktu, mencegah deformasi objek dalam segmen panjang

Data pelatihan dihasilkan dari dua set simulasi fisik: sekitar 1900 set data dinamika rigid body Kubric dan sekitar 4500 set data penangkapan gerak manusia HUMOTO, diselesaikan di 8 GPU A100 80GB. Dalam 25 pengujian preferensi pengguna, VOID memperoleh tingkat pilihan sebesar 64,8%, secara signifikan mengungguli alat komersial Runway yang hanya 18,4%. Inferensi membutuhkan memori GPU di atas 40GB (setara A100), makalah ini masih belum melalui peer review, dan Netflix juga belum mengumumkan akan memasukkannya ke dalam proses produksi. (Sumber: GithHub)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
360.22K Popularitas
#
CryptoMarketsDipSlightly
264.67K Popularitas
#
IsraelStrikesIranBTCPlunges
35.94K Popularitas
#
#DailyPolymarketHotspot
697.05K Popularitas
#
StrategyAccumulates2xMiningRate
139.47M Popularitas

Sematkan

peta situs

Model penghapusan video open-source奈飞 VOID: Tidak hanya menghapus objek, tetapi juga dapat menghitung ulang gerakan fisik objek yang tersisa

Topik Trending

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Sematkan