Мітуань відкрив код LongCat-Video-Avatar 1.5 — фреймворк цифрового персонажа, інференція зменшена до 8 кроків

robot
Генерація анотацій у процесі
Звіт з CoinWorld: команда LongCat від Meituan відкрила вихідний код рамки для створення цифрових персонажів LongCat-Video-Avatar 1.5, яка перебудувала алгоритми витягання аудіо та генерації відео, зосереджуючись на промисловому рівні стабільності просторово-часової та швидкої обробки. Рамка замінила кодер wav2vec2 на аудіокодер whisper-large-v3, покращивши синхронізацію руху губ та динаміку губ, а також підвищивши стійкість до багатомовних та міжмовних генерацій руху губ. Модель була оптимізована за допомогою підсиленого навчання GRPO, що зменшило артефакти, такі як деформація рук та неправильне пропускання кадрів, і підвищило послідовність ідентичності у довгих відео. Рамка використовує багатофрагментний скользящий аналіз, використовуючи попередні відео для створення глобального часово-структурного контексту, зберігаючи цілісність ролі. На стороні обчислень застосовано технологію дистиляції DMD2 з мінімальною кількістю кроків, зменшивши кількість ітерацій для очищення шуму до 8, балансуючи між швидкістю обробки та точністю зображення. Оцінка базується на 508 парах зображень та аудіо, зібрано 13240 суджень від 770 оцінювачів, а 10 експертів оцінили за кількома параметрами. Рамка може бути застосована до стилів аніме та тварин, підтримує моно- та багатоканальне аудіо, а ваги моделі опубліковані за ліцензією MIT. Вміст призначений лише для академічного використання; для комерційного застосування потрібно перевірити відповідний контент.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 11
  • 3
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
MoonlightColdWallet
· 05-22 10:09
GRPO Деталі рук досить цікаві, розповсюджена проблема моделей дифузії — це катастрофа з пальцями
Переглянути оригіналвідповісти на0
BudgetValidator
· 05-22 07:58
whisper-large-v3 дійсно краще співпадає з рухом губ, раніше сцені wav2vec2 multilingual часто не співпадали
Переглянути оригіналвідповісти на0
GateUser-6319729f
· 05-22 07:31
MIT ліцензія отримала хороші відгуки, але умови комерційного використання потрібно уважно вивчити, щоб не потрапити в пастку
Переглянути оригіналвідповісти на0
GateUser-af0ea0c9
· 05-22 07:26
Підвищення стабільності простору-часу має набагато більше значення, ніж просто підвищення FID, нарешті відеогенерація рухається у правильному напрямку
Переглянути оригіналвідповісти на0
SlippageSailor
· 05-22 07:19
Чи варто включати набір даних, орієнтований на академічний характер? Хочу спробувати відтворити.
Переглянути оригіналвідповісти на0
GateUser-f4ae43e9
· 05-22 07:19
Цей дизайн багатофрагментного скролінгового мислення розумний, важливо, щоб довгі відео не призводили до збоїв обличчя.
Переглянути оригіналвідповісти на0
GotLiquidatedAgainLastNight.
· 05-22 07:10
LongCat цю назву хто придумав, чи співробітники Meituan теж люблять котів?
Переглянути оригіналвідповісти на0
DeltaSmile
· 05-22 07:10
Підтримка моно і багатоканального звуку, дуже підходить для інструментів озвучування.
Переглянути оригіналвідповісти на0
SeaSaltAirdropNotes
· 05-22 07:10
Відповідність особи нарешті почали серйозно опрацьовувати, раніше у другій половині відео з підміною обличчя часто змінювалися люди.
Переглянути оригіналвідповісти на0
CrystalBallForSentiment
· 05-22 07:10
На скільки підвищилася ефективність DMD2? Чи є дані про затримку на A100?
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено