Model penghapusan video open-source奈飞 VOID: Tidak hanya menghapus objek, tetapi juga dapat menghitung ulang gerakan fisik objek yang tersisa

robot
Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 14 April (UTC+8), Netflix Research Institute dan Universitas Sofia Bulgaria INSAIT secara bersama mengembangkan VOID (Video Object and Interaction Deletion), sebuah kerangka AI yang mampu menghapus objek dari video dan mensimulasikan ulang perilaku fisik sisa adegan. Pada 3 April, dirilis secara open source di Hugging Face dengan lisensi Apache 2.0, ini adalah alat AI pertama yang dirilis secara publik oleh Netflix Research Institute.

Alat penghapus video tradisional mahir mengisi latar belakang, memperbaiki bayangan dan pantulan, tetapi mengalami kesulitan saat menghadapi adegan di mana objek berinteraksi secara fisik (tabrakan, penopang, dorongan). Kemampuan inti VOID adalah memahami sebab-akibat fisik: menghapus satu bagian dari rangkaian domino tidak akan menyebabkan domino selanjutnya jatuh; menghapus orang yang melompat ke kolam tidak akan menyebabkan riak air; menghapus orang yang memegang gitar akan membuat gitar jatuh secara alami.

Rangkaian teknologi terbagi menjadi tiga lapisan:

  1. Meta’s SAM2 melakukan segmentasi objek, Google Gemini menganalisis semantik adegan, menghasilkan “quadmask” empat nilai, menandai subjek, area tumpang tindih, area yang terpengaruh, dan latar belakang, memberi tahu model tidak hanya apa yang harus dihapus, tetapi juga apa yang akan berubah karena itu

  2. Inferensi tahap pertama yang didasarkan pada model fine-tuned dari Alibaba CogVideoX-Fun-V1.5-5b-InP (Transformer difusi dengan 5 miliar parameter), menghasilkan lintasan kontra-faktual yang secara fisik masuk akal

  3. Tahap kedua opsional “stabilisasi noise aliran optik”, menggunakan gerakan yang diprediksi dari tahap pertama untuk menginisialisasi noise terkait waktu, mencegah deformasi objek dalam segmen panjang

Data pelatihan dihasilkan dari dua set simulasi fisik: sekitar 1900 set data dinamika rigid body Kubric dan sekitar 4500 set data penangkapan gerak manusia HUMOTO, diselesaikan di 8 GPU A100 80GB. Dalam 25 pengujian preferensi pengguna, VOID memperoleh tingkat pilihan sebesar 64,8%, secara signifikan mengungguli alat komersial Runway yang hanya 18,4%. Inferensi membutuhkan memori GPU di atas 40GB (setara A100), makalah ini masih belum melalui peer review, dan Netflix juga belum mengumumkan akan memasukkannya ke dalam proses produksi. (Sumber: GithHub)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan