Перехід з wav2vec2 на whisper-large-v3 значно підвищує стійкість до багатомовної синхронізації губ, чітко визначаючи межу між академічним та комерційним використанням.

Переглянути оригінал
CoinNetwork
Мітуань відкрив код LongCat-Video-Avatar 1.5 — фреймворк цифрового персонажа, інференція зменшена до 8 кроків
Команда Meituan Changmao відкрила вихідний код LongCat-Video-Avatar 1.5, перебудувавши генерацію аудіо та відео для покращення просторово-часової стабільності та швидкості розпізнавання. Замінено wav2vec2 на whisper-large-v3 для покращення синхронізації міміки та багатомовної стійкості; за допомогою GRPO підкріпленого навчання зменшено артефакти рук та помилкові кадри, посилено послідовність ідентичності у довгих відео. Використано багатофрагментне скользяче розпізнавання та попередній контекст, 8-крокове дистилювання DMD2 для балансу між ефективністю та точністю. Каркас може бути застосований до стилів аніме/тварин, підтримує одноканальні/багатоканальні аудіо, ліцензія MIT, орієнтований на академічне використання, для комерційного використання потрібно перевірити.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено