Meituan merilis LongCat-Video-Avatar 1.5 kerangka digital manusia dengan inferensi dipersingkat menjadi 8 langkah

robot
Pembuatan abstrak sedang berlangsung
Berita dari CoinWorld, tim LongCat dari Meituan telah merilis kerangka kerja pembuatan manusia digital LongCat-Video-Avatar 1.5 secara open source, dengan melakukan rekonstruksi algoritma ekstraksi audio dan pembuatan video, menonjolkan stabilitas ruang-waktu tingkat industri dan inferensi super cepat. Kerangka kerja ini mengganti encoder wav2vec2 dengan encoder audio whisper-large-v3, meningkatkan sinkronisasi gerak mulut dan dinamika bibir, serta memperkuat ketahanan dalam menghasilkan gerak bibir multibahasa dan lintas bahasa. Model ini dioptimalkan melalui pembelajaran penguatan GRPO, mengurangi artefak seperti deformasi tangan dan frame yang tidak normal, serta meningkatkan konsistensi identitas dalam video panjang. Kerangka kerja ini menggunakan inferensi bergulir multi-segmen, memanfaatkan video sebelumnya untuk membangun konteks urutan waktu global, menjaga kontinuitas identitas karakter. Pada sisi inferensi, diperkenalkan teknologi distilasi langkah kecil DMD2, yang mengurangi iterasi denoising menjadi 8 langkah, menyeimbangkan efisiensi inferensi dan fidelitas gambar. Pengujian evaluasi dilakukan pada 508 pasangan gambar dan audio, dengan 770 evaluator mengumpulkan 13.240 penilaian, dan 10 ahli memberikan penilaian dari berbagai dimensi. Kerangka kerja ini dapat digeneralisasi ke gaya anime dan hewan, mendukung input audio mono dan multi-kanal, bobot model dirilis di bawah lisensi MIT, dan konten yang ditampilkan hanya untuk keperluan akademik, penggunaan komersial harus memeriksa konten terkait.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 11
  • 3
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
MoonlightColdWallet
· 05-22 10:09
GRPO Mengurus detail tangan cukup menarik, masalah lama dari model penyebaran adalah bencana jari tangan
Lihat AsliBalas0
BudgetValidator
· 05-22 07:58
whisper-large-v3 dipasang, gerak bibir memang jadi lebih akurat, sebelumnya wav2vec2 multilingual sering tidak cocok di berbagai skenario
Lihat AsliBalas0
GateUser-6319729f
· 05-22 07:31
Lisensi MIT mendapatkan ulasan positif, tetapi ketentuan penggunaan komersial harus diperhatikan dengan cermat, jangan sampai terjebak.
Lihat AsliBalas0
GateUser-af0ea0c9
· 05-22 07:26
Peningkatan stabilitas ruang-waktu jauh lebih berarti daripada sekadar meningkatkan FID, akhirnya kompetisi dalam pembuatan video berfokus pada arah yang benar
Lihat AsliBalas0
SlippageSailor
· 05-22 07:19
Apakah dataset yang bersifat akademis utama harus disertakan? Ingin mencoba mereplikasi.
Lihat AsliBalas0
GateUser-f4ae43e9
· 05-22 07:19
Desain inferensi bergulir multi-segmen ini cerdas, tidak membuat wajah video panjang menjadi terlalu penting.
Lihat AsliBalas0
GotLiquidatedAgainLastNight.
· 05-22 07:10
Siapa yang memberi nama LongCat ini, apakah insinyur Meituan juga suka mengadopsi kucing?
Lihat AsliBalas0
DeltaSmile
· 05-22 07:10
Mendukung semua mode mono dan multi-saluran, sangat cocok untuk alat pengisi suara.
Lihat AsliBalas0
SeaSaltAirdropNotes
· 05-22 07:10
Konsistensi identitas akhirnya diperlakukan dengan serius, sebelumnya di bagian akhir video penggantian wajah sering kali berganti orang
Lihat AsliBalas0
CrystalBallForSentiment
· 05-22 07:10
Seberapa banyak peningkatan efisiensi DMD2? Apakah ada data latensi di atas A100?
Lihat AsliBalas0
Lihat Lebih Banyak
  • Disematkan