Meituan merilis LongCat-Video-Avatar1.5 kerangka digital manusia open source, inferensi dipersingkat menjadi 8 langkah

robot
Pembuatan abstrak sedang berlangsung
ME AI Pesan, menurut pemantauan Beating, tim LongCat dari Meituan merilis sumber terbuka kerangka kerja generasi video wajah audio LongCat-Video-Avatar 1.5, lengkap dengan kode dan bobot model. Pembaruan kali ini menggantikan Wav2Vec2 dengan Whisper-Large sebagai encoder audio, bertujuan untuk memberikan konsistensi identitas yang lebih kuat dalam video panjang dan kemampuan generalisasi gaya yang lebih luas. Kerangka ini beralih ke Whisper-large-v3 sebagai encoder audio untuk meningkatkan sinkronisasi bibir dan dinamika bentuk bibir. Representasi akustik yang dibawa oleh Whisper-large-v3 secara signifikan meningkatkan stabilitas dalam generasi bentuk bibir multibahasa dan lintas bahasa. Untuk meningkatkan stabilitas temporal, kerangka ini menggunakan inferensi bergulir dalam beberapa segmen selama pembuatan video panjang untuk menjaga konsistensi identitas karakter. Pada sisi inferensi, diperkenalkan teknik distilasi langkah kecil berbasis DMD2 yang mengurangi iterasi denoising menjadi 8 langkah, mempercepat inferensi hingga 8 NFE sekaligus menyeimbangkan efisiensi inferensi dan fidelitas gambar. Evaluasi model dilakukan berdasarkan pengujian terhadap 508 pasangan sumber gambar-audio. Penilaian crowdsourcing melibatkan 770 evaluator dan mengumpulkan 13.240 penilaian, serta 10 ahli menilai dari dimensi kelogisan fisik, koherensi, stabilitas temporal, dan konsistensi identitas. Secara resmi, kerangka ini dipamerkan dalam perbandingan langsung dengan HeyGen, Kling Avatar 2.0, dan OmniHuman-1.5, dengan fokus peningkatan stabilitas temporal, konsistensi identitas, dan bentuk bibir alami. Selain potret realistis, kerangka ini juga dapat digeneralisasi ke gaya anime dan hewan, serta mendukung input audio mono dan multi-channel secara native. Bobot model dirilis di bawah lisensi MIT. Selain itu, pernyataan etika di halaman proyek menyebutkan bahwa konten yang dihasilkan hanya untuk keperluan akademik dan tidak diperbolehkan untuk penggunaan komersial. Penggunaan komersial nyata masih memerlukan verifikasi terpisah terhadap bobot, kode, materi, dan batasan konten yang dihasilkan. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 11
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
HedgeHedgeBaby
· Baru saja
单多声道原生支持,做播客切片的人需要这个
Balas0
LendingRateAnxiety
· 20menit yang lalu
Apa yang dinilai oleh 10 ahli secara spesifik, apakah dijelaskan secara rinci dalam makalah?
Lihat AsliBalas0
TheWaveOfRasterization
· 1jam yang lalu
Persetujuan MIT dipuji, ramah akademik
Lihat AsliBalas0
GlassBottleFeather
· 1jam yang lalu
Apakah distilasi DMD2 sekarang sudah menjadi standar? Rasanya semua orang menggunakannya.
Lihat AsliBalas0
ReboundAtTheStreetCornerAfter
· 1jam yang lalu
动物风格是什么鬼,猫说话?
Balas0
GateUser-dd8dffab
· 1jam yang lalu
Peningkatan konsistensi identitas sangat penting, sebelumnya dengan sudut pandang yang berbeda mudah terlihat seperti orang yang berbeda
Lihat AsliBalas0
GateUser-c29c3db9
· 1jam yang lalu
770 evaluator 13240 kali penilaian, apakah skala evaluasi ini serius?
Lihat AsliBalas0
BridgeTroll
· 1jam yang lalu
Gaya anime adalah easter egg, dunia kreasi kedua akan menjadi ramai
Lihat AsliBalas0
CandleAfterTheRain
· 1jam yang lalu
Perancangan inferensi bergulir ini sangat brilian, video panjang tidak lagi crash
Lihat AsliBalas0
GateUser-deff9ed8
· 1jam yang lalu
Pengucapan mulut multibahasa akhirnya bisa digunakan, sebelumnya model bahasa Inggris selalu aneh dengan pengucapan mulut bahasa Mandarin
Lihat AsliBalas0
Lihat Lebih Banyak
  • Disematkan