Laporan teknis, bobot, demo semuanya dirilis, membandingkan Kling-Foley juga tidak kalah, komunitas open source akhirnya memiliki kerangka kerja efek suara video yang bisa bersaing.

Lihat Asli
BlockBeatNews
Xiaomi merilis model pengisi suara video sumber terbuka ControlFoley, suara dapat disesuaikan sesuai keinginan individu
Dalam pemantauan Beating, tim Xiaomi merilis sumber terbuka kerangka kerja efek suara video ControlFoley, menekankan kontrol: menghasilkan suara berdasarkan gambar, teks, atau audio referensi, dan dapat mengubah gaya suara sambil menjaga sinkronisasi audio dan gambar. Pada tingkat dasar menggunakan encoder audio-video spasial-temporal yang dimodifikasi dari CAV-MAE, melakukan pemisahan waktu dan nada suara. Penilaian multi-tugas mencapai SOTA sumber terbuka, dan bersaing dalam perbandingan dengan Kling-Foley, tetapi masih memiliki jarak pada beberapa indikator KL di Kling-Audio-Eval dan MovieGen-Audio-Bench. Proyek ini telah merilis laporan teknis, kode, bobot, dan Demo.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan