Pemutusan waktu dan warna suara ini desainnya cukup menarik, akhirnya tidak perlu lagi mendengarkan efek suara kalengan AI yang monoton, menantikan untuk mencobanya secara langsung.

Lihat Asli
CoinNetwork
Berita dari Jièjiè Wang, tim aplikasi model besar Xiaomi merilis dan membuka sumber kerangka kerja pembuatan suara dan video ControlFoley. Model ini menekankan pada "keterkontrolan", mampu melakukan pengisi suara sesuai gambar, serta menerima deskripsi teks atau audio referensi, sehingga suara dapat dihasilkan sesuai niat pembuat. ControlFoley menggunakan encoder audio dan video ruang-waktu berbasis modifikasi cav-mae, dan memperkenalkan strategi "pemutusan waktu-warna suara", memastikan sinkronisasi suara dan gambar. Model ini mencapai tingkat SOTA sumber terbuka dalam beberapa pengujian pengisi suara video umum, laporan teknis proyek, kode, bobot model, dan demo semuanya telah dibuka.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar