Tim LongCat dari Meituan merilis open source LongCat-Video-Avatar 1.5, secara lengkap merilis kode dan bobotnya. Beralih ke Whisper-large-v3 untuk meningkatkan sinkronisasi mulut multibahasa dan generalisasi gaya, menggunakan inferensi gulir multi-segmen dan distilasi langkah kecil berbasis DMD2 untuk menurunkan inferensi menjadi 8 langkah, menyeimbangkan kecepatan dan fidelitas. Setelah 508 pasangan data sumber, 770 penilai, 13240 penilaian, dan 10 ahli evaluasi, secara signifikan meningkatkan stabilitas temporal, konsistensi identitas, dan gerak mulut alami, serta dapat digeneralisasi ke gaya anime dan hewan, mendukung audio mono/multi-kanal secara native. Lisensi MIT, terutama untuk penggunaan akademik, penggunaan komersial harus dikonfirmasi terpisah.

MeNews

2026-05-22 08:04:01

Pembuatan abstrak sedang berlangsung

ME AI Pesan, menurut pemantauan Beating, tim LongCat dari Meituan merilis sumber terbuka kerangka kerja generasi video wajah audio LongCat-Video-Avatar 1.5, lengkap dengan kode dan bobot model. Pembaruan kali ini menggantikan Wav2Vec2 dengan Whisper-Large sebagai encoder audio, bertujuan untuk memberikan konsistensi identitas yang lebih kuat dalam video panjang dan kemampuan generalisasi gaya yang lebih luas. Kerangka ini beralih ke Whisper-large-v3 sebagai encoder audio untuk meningkatkan sinkronisasi bibir dan dinamika bentuk bibir. Representasi akustik yang dibawa oleh Whisper-large-v3 secara signifikan meningkatkan stabilitas dalam generasi bentuk bibir multibahasa dan lintas bahasa. Untuk meningkatkan stabilitas temporal, kerangka ini menggunakan inferensi bergulir dalam beberapa segmen selama pembuatan video panjang untuk menjaga konsistensi identitas karakter. Pada sisi inferensi, diperkenalkan teknik distilasi langkah kecil berbasis DMD2 yang mengurangi iterasi denoising menjadi 8 langkah, mempercepat inferensi hingga 8 NFE sekaligus menyeimbangkan efisiensi inferensi dan fidelitas gambar. Evaluasi model dilakukan berdasarkan pengujian terhadap 508 pasangan sumber gambar-audio. Penilaian crowdsourcing melibatkan 770 evaluator dan mengumpulkan 13.240 penilaian, serta 10 ahli menilai dari dimensi kelogisan fisik, koherensi, stabilitas temporal, dan konsistensi identitas. Secara resmi, kerangka ini dipamerkan dalam perbandingan langsung dengan HeyGen, Kling Avatar 2.0, dan OmniHuman-1.5, dengan fokus peningkatan stabilitas temporal, konsistensi identitas, dan bentuk bibir alami. Selain potret realistis, kerangka ini juga dapat digeneralisasi ke gaya anime dan hewan, serta mendukung input audio mono dan multi-channel secara native. Bobot model dirilis di bawah lisensi MIT. Selain itu, pernyataan etika di halaman proyek menyebutkan bahwa konten yang dihasilkan hanya untuk keperluan akademik dan tidak diperbolehkan untuk penggunaan komersial. Penggunaan komersial nyata masih memerlukan verifikasi terpisah terhadap bobot, kode, materi, dan batasan konten yang dihasilkan. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

8 Suka

Hadiah
8
11
2
Bagikan

Komentar

Tambahkan komentar

HedgeHedgeBaby

· Baru saja

单多声道原生支持，做播客切片的人需要这个

Balas0

LendingRateAnxiety

· 20menit yang lalu

Apa yang dinilai oleh 10 ahli secara spesifik, apakah dijelaskan secara rinci dalam makalah?

Lihat AsliBalas0

TheWaveOfRasterization

· 1jam yang lalu

Persetujuan MIT dipuji, ramah akademik

Lihat AsliBalas0

GlassBottleFeather

· 1jam yang lalu

Apakah distilasi DMD2 sekarang sudah menjadi standar? Rasanya semua orang menggunakannya.

Lihat AsliBalas0

ReboundAtTheStreetCornerAfter

· 1jam yang lalu

动物风格是什么鬼，猫说话？

Balas0

GateUser-dd8dffab

· 1jam yang lalu

Peningkatan konsistensi identitas sangat penting, sebelumnya dengan sudut pandang yang berbeda mudah terlihat seperti orang yang berbeda

Lihat AsliBalas0

GateUser-c29c3db9

· 1jam yang lalu

770 evaluator 13240 kali penilaian, apakah skala evaluasi ini serius?

Lihat AsliBalas0

BridgeTroll

· 1jam yang lalu

Gaya anime adalah easter egg, dunia kreasi kedua akan menjadi ramai

Lihat AsliBalas0

CandleAfterTheRain

· 1jam yang lalu

Perancangan inferensi bergulir ini sangat brilian, video panjang tidak lagi crash

Lihat AsliBalas0

GateUser-deff9ed8

· 1jam yang lalu

Pengucapan mulut multibahasa akhirnya bisa digunakan, sebelumnya model bahasa Inggris selalu aneh dengan pengucapan mulut bahasa Mandarin

Lihat AsliBalas0

Lihat Lebih Banyak

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
251.97K Popularitas
#
PlatinumCardCreatorExclusive
63.43K Popularitas
#
IsraelStrikesIranBTCPlunges
48.62K Popularitas
#
#DailyPolymarketHotspot
1.02M Popularitas
#
GateSquarePizzaDay
1.72M Popularitas

Disematkan

peta situs

Meituan merilis LongCat-Video-Avatar1.5 kerangka digital manusia open source, inferensi dipersingkat menjadi 8 langkah

Topik Trending

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Disematkan