Dari Whisper ke DMD2 distilasi, tumpukan teknologi yang cukup kokoh, generalisasi multibahasa dan gaya anime sangat menarik bagi saya yang suka membuat karya turunan.

Lihat Asli
MeNews
Meituan merilis LongCat-Video-Avatar1.5 kerangka digital manusia open source, inferensi dipersingkat menjadi 8 langkah
Tim LongCat dari Meituan merilis open source LongCat-Video-Avatar 1.5, secara lengkap merilis kode dan bobotnya. Beralih ke Whisper-large-v3 untuk meningkatkan sinkronisasi mulut multibahasa dan generalisasi gaya, menggunakan inferensi gulir multi-segmen dan distilasi langkah kecil berbasis DMD2 untuk menurunkan inferensi menjadi 8 langkah, menyeimbangkan kecepatan dan fidelitas. Setelah 508 pasangan data sumber, 770 penilai, 13240 penilaian, dan 10 ahli evaluasi, secara signifikan meningkatkan stabilitas temporal, konsistensi identitas, dan gerak mulut alami, serta dapat digeneralisasi ke gaya anime dan hewan, mendukung audio mono/multi-kanal secara native. Lisensi MIT, terutama untuk penggunaan akademik, penggunaan komersial harus dikonfirmasi terpisah.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan