Звіт з CoinWorld: команда LongCat від Meituan відкрила вихідний код рамки для створення цифрових персонажів LongCat-Video-Avatar 1.5, яка перебудувала алгоритми витягання аудіо та генерації відео, зосереджуючись на промисловому рівні стабільності просторово-часової та швидкої обробки. Рамка замінила кодер wav2vec2 на аудіокодер whisper-large-v3, покращивши синхронізацію руху губ та динаміку губ, а також підвищивши стійкість до багатомовних та міжмовних генерацій руху губ. Модель була оптимізована за допомогою підсиленого навчання GRPO, що зменшило артефакти, такі як деформація рук та неправильне пропускання кадрів, і підвищило послідовність ідентичності у довгих відео. Рамка використовує багатофрагментний скользящий аналіз, використовуючи попередні відео для створення глобального часово-структурного контексту, зберігаючи цілісність ролі. На стороні обчислень застосовано технологію дистиляції DMD2 з мінімальною кількістю кроків, зменшивши кількість ітерацій для очищення шуму до 8, балансуючи між швидкістю обробки та точністю зображення. Оцінка базується на 508 парах зображень та аудіо, зібрано 13240 суджень від 770 оцінювачів, а 10 експертів оцінили за кількома параметрами. Рамка може бути застосована до стилів аніме та тварин, підтримує моно- та багатоканальне аудіо, а ваги моделі опубліковані за ліцензією MIT. Вміст призначений лише для академічного використання; для комерційного застосування потрібно перевірити відповідний контент.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

10 лайків

Нагородити
10
11
3
Поділіться

Прокоментувати

Додати коментар

MoonlightColdWallet

· 05-22 10:09

GRPO Деталі рук досить цікаві, розповсюджена проблема моделей дифузії — це катастрофа з пальцями