Tim LongCat dari tim Meituan Open Source LongCat-Video-Avatar 1.5, melakukan rekonstruksi generasi audio dan video untuk meningkatkan stabilitas spasial-waktu dan kecepatan inferensi. Mengganti wav2vec2 dengan whisper-large-v3, meningkatkan sinkronisasi bibir dan ketahanan multibahasa; melalui pembelajaran penguatan GRPO, mengurangi artefak tangan dan frame yang salah, memperkuat konsistensi identitas dalam video panjang. Menggunakan inferensi bergulir multi-segmen dan konteks sebelumnya, DMD2 distilasi 8 langkah menyeimbangkan efisiensi dan fidelitas. Kerangka ini dapat digeneralisasi ke gaya anime/hewan, mendukung audio mono/multichannel, lisensi MIT, terutama untuk penggunaan akademik, silakan periksa untuk penggunaan komersial.

CoinNetwork

2026-05-22 07:03:57

Pembuatan abstrak sedang berlangsung

Berita dari CoinWorld, tim LongCat dari Meituan telah merilis kerangka kerja pembuatan manusia digital LongCat-Video-Avatar 1.5 secara open source, dengan melakukan rekonstruksi algoritma ekstraksi audio dan pembuatan video, menonjolkan stabilitas ruang-waktu tingkat industri dan inferensi super cepat. Kerangka kerja ini mengganti encoder wav2vec2 dengan encoder audio whisper-large-v3, meningkatkan sinkronisasi gerak mulut dan dinamika bibir, serta memperkuat ketahanan dalam menghasilkan gerak bibir multibahasa dan lintas bahasa. Model ini dioptimalkan melalui pembelajaran penguatan GRPO, mengurangi artefak seperti deformasi tangan dan frame yang tidak normal, serta meningkatkan konsistensi identitas dalam video panjang. Kerangka kerja ini menggunakan inferensi bergulir multi-segmen, memanfaatkan video sebelumnya untuk membangun konteks urutan waktu global, menjaga kontinuitas identitas karakter. Pada sisi inferensi, diperkenalkan teknologi distilasi langkah kecil DMD2, yang mengurangi iterasi denoising menjadi 8 langkah, menyeimbangkan efisiensi inferensi dan fidelitas gambar. Pengujian evaluasi dilakukan pada 508 pasangan gambar dan audio, dengan 770 evaluator mengumpulkan 13.240 penilaian, dan 10 ahli memberikan penilaian dari berbagai dimensi. Kerangka kerja ini dapat digeneralisasi ke gaya anime dan hewan, mendukung input audio mono dan multi-kanal, bobot model dirilis di bawah lisensi MIT, dan konten yang ditampilkan hanya untuk keperluan akademik, penggunaan komersial harus memeriksa konten terkait.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

10 Suka

Hadiah
10
11
3
Bagikan

Komentar

Tambahkan komentar

MoonlightColdWallet

· 05-22 10:09

GRPO Mengurus detail tangan cukup menarik, masalah lama dari model penyebaran adalah bencana jari tangan

Lihat AsliBalas0

BudgetValidator

· 05-22 07:58

whisper-large-v3 dipasang, gerak bibir memang jadi lebih akurat, sebelumnya wav2vec2 multilingual sering tidak cocok di berbagai skenario

Lihat AsliBalas0

GateUser-6319729f

· 05-22 07:31

Lisensi MIT mendapatkan ulasan positif, tetapi ketentuan penggunaan komersial harus diperhatikan dengan cermat, jangan sampai terjebak.

Lihat AsliBalas0

GateUser-af0ea0c9

· 05-22 07:26

Peningkatan stabilitas ruang-waktu jauh lebih berarti daripada sekadar meningkatkan FID, akhirnya kompetisi dalam pembuatan video berfokus pada arah yang benar

Lihat AsliBalas0

SlippageSailor

· 05-22 07:19

Apakah dataset yang bersifat akademis utama harus disertakan? Ingin mencoba mereplikasi.

Lihat AsliBalas0

GateUser-f4ae43e9

· 05-22 07:19

Desain inferensi bergulir multi-segmen ini cerdas, tidak membuat wajah video panjang menjadi terlalu penting.

Lihat AsliBalas0

GotLiquidatedAgainLastNight.

· 05-22 07:10

Siapa yang memberi nama LongCat ini, apakah insinyur Meituan juga suka mengadopsi kucing?

Lihat AsliBalas0

DeltaSmile

· 05-22 07:10

Mendukung semua mode mono dan multi-saluran, sangat cocok untuk alat pengisi suara.

Lihat AsliBalas0

SeaSaltAirdropNotes

· 05-22 07:10

Konsistensi identitas akhirnya diperlakukan dengan serius, sebelumnya di bagian akhir video penggantian wajah sering kali berganti orang

Lihat AsliBalas0

CrystalBallForSentiment

· 05-22 07:10

Seberapa banyak peningkatan efisiensi DMD2? Apakah ada data latensi di atas A100?

Lihat AsliBalas0

Lihat Lebih Banyak

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
319.61K Popularitas
#
PlatinumCardCreatorExclusive
114.76K Popularitas
#
IsraelStrikesIranBTCPlunges
49.03K Popularitas
#
#DailyPolymarketHotspot
1.05M Popularitas
#
GateSquarePizzaDay
648.72K Popularitas

Disematkan

peta situs

Meituan merilis LongCat-Video-Avatar 1.5 kerangka digital manusia dengan inferensi dipersingkat menjadi 8 langkah

Topik Trending

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Disematkan