Мітуань відкрила вихідний код LongCat-Video-Avatar1.5 — фреймворк цифрового персонажа, зменшивши кількість кроків в обчислювальному процесі до 8

robot
Генерація анотацій у процесі
ME AI Повідомлення, згідно з моніторингом Beating, команда Meituan LongCat відкрила вихідний код драйвера аудіо для генерації портретних відео LongCat-Video-Avatar 1.5, повністю відкривши код та ваги моделі. Це оновлення замінило Wav2Vec2 на Whisper-Large аудіо кодер, з метою забезпечення більшої стабільності ідентичності у довгих відео та ширшої здатності до стилістичної генералізації. Фреймворк перейшов на Whisper-large-v3 аудіо кодер для покращення синхронізації руху рота та динаміки губ. Завдяки Whisper-large-v3 акустичне уявлення значно покращило стабільність мульти-мовної та міжмовної генерації руху губ. Для підвищення часової стабільності фреймворк використовує багатофрагментний скользящий аналіз у довгих відео для збереження послідовності ідентичності персонажа. На стороні аналізу застосовується технологія дистиляції на основі DMD2 з меншим числом кроків, зменшуючи кількість ітерацій шумоподавлення до 8, що прискорює аналіз до 8 NFE та балансуючи ефективність аналізу і точність зображення. Оцінка моделі проводилася на 508 пар зображень та аудіо. Залучено 770 оцінювачів для краудсорсингової оцінки та зібрано 13240 суджень, а також 10 експертів оцінювали за такими критеріями, як фізична обґрунтованість, координація, часові стабільність та ідентичність. Офіційно продемонстровано порівняння з HeyGen, Kling Avatar 2.0, OmniHuman-1.5, з акцентом на покращення часової стабільності, ідентичності та природності руху губ. Окрім реалістичних портретів, фреймворк також може бути застосований до стилів аніме та тварин, а також підтримує моно- та багатоканальний аудіовхід. Ваги моделі випущені за ліцензією MIT. Також на сторінці проекту зазначено, що створений контент використовується виключно для академічних цілей і не дозволяється для комерційного використання. Для комерційного застосування потрібно окремо перевіряти ваги, код, матеріали та межі створеного контенту. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 11
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
HedgeHedgeBaby
· 2год тому
Підтримка багатоканального нативного звуку, це потрібно для тих, хто робить сегментацію подкастів
Переглянути оригіналвідповісти на0
LendingRateAnxiety
· 2год тому
10 експертів оцінили конкретно, що саме, чи детально описано це у статті?
Переглянути оригіналвідповісти на0
TheWaveOfRasterization
· 3год тому
MIT ліцензія високо оцінена, дружня до академічної спільноти
Переглянути оригіналвідповісти на0
GlassBottleFeather
· 3год тому
Чи стала дистиляція DMD2 стандартною практикою? Відчувається, що всі використовують її.
Переглянути оригіналвідповісти на0
ReboundAtTheStreetCornerAfter
· 3год тому
动物风格是什么鬼,猫说话?
відповісти на0
GateUser-dd8dffab
· 3год тому
Підвищення узгодженості особистості є дуже важливим, раніше при зміні ракурсу легко було виглядати не як одна й та сама людина.
Переглянути оригіналвідповісти на0
GateUser-c29c3db9
· 3год тому
770 оцінювачів, 13240 суджень, чи серйозно ця масштабність оцінки
Переглянути оригіналвідповісти на0
BridgeTroll
· 3год тому
Генералізація в стилі аніме — це пасхалка, у другому творчому колі стане гаряче
Переглянути оригіналвідповісти на0
CandleAfterTheRain
· 3год тому
Плавне мислення — цей дизайн дуже гарний, довгі відео не зламаються
Переглянути оригіналвідповісти на0
GateUser-deff9ed8
· 3год тому
Мультимовні міміки нарешті стали доступними, раніше англійська модель завжди неправильно відтворювала китайські міміки.
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено