Perpindahan dari wav2vec2 ke whisper-large-v3, peningkatan ketahanan sinkronisasi mulut multibahasa menjadi jelas, batas antara akademik dan komersial harus dipahami dengan jelas

Lihat Asli
CoinNetwork
Meituan merilis LongCat-Video-Avatar 1.5 kerangka digital manusia dengan inferensi dipersingkat menjadi 8 langkah
Tim LongCat dari tim Meituan Open Source LongCat-Video-Avatar 1.5, melakukan rekonstruksi generasi audio dan video untuk meningkatkan stabilitas spasial-waktu dan kecepatan inferensi. Mengganti wav2vec2 dengan whisper-large-v3, meningkatkan sinkronisasi bibir dan ketahanan multibahasa; melalui pembelajaran penguatan GRPO, mengurangi artefak tangan dan frame yang salah, memperkuat konsistensi identitas dalam video panjang. Menggunakan inferensi bergulir multi-segmen dan konteks sebelumnya, DMD2 distilasi 8 langkah menyeimbangkan efisiensi dan fidelitas. Kerangka ini dapat digeneralisasi ke gaya anime/hewan, mendukung audio mono/multichannel, lisensi MIT, terutama untuk penggunaan akademik, silakan periksa untuk penggunaan komersial.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan