Meituan LongCat команда відкрила код LongCat-Video-Avatar 1.5, повністю опублікувала код та ваги. Перейшла на Whisper-large-v3 для покращення мульти-мовної синхронізації губ та генералізації стилю, використовуючи багатофрагментне скользяче виведення та дистиляцію з малою кількістю кроків на основі DMD2, зменшивши кількість кроків виведення до 8, балансуючи швидкість та точність. Після 508 порівнянь з вихідними даними, 770 оцінювачів та 13240 суджень, а також оцінки 10 експертів, значно покращено часову стабільність, послідовність особистості та природність руху губ, а також можливість генералізації до стилів аніме та тварин, з нативною підтримкою моно/стерео аудіо. Ліцензія MIT, переважно для академічного використання, для комерційного використання потрібно окремо уточнювати.

MeNews

2026-05-22 08:04:01

Генерація анотацій у процесі

ME AI Повідомлення, згідно з моніторингом Beating, команда Meituan LongCat відкрила вихідний код драйвера аудіо для генерації портретних відео LongCat-Video-Avatar 1.5, повністю відкривши код та ваги моделі. Це оновлення замінило Wav2Vec2 на Whisper-Large аудіо кодер, з метою забезпечення більшої стабільності ідентичності у довгих відео та ширшої здатності до стилістичної генералізації. Фреймворк перейшов на Whisper-large-v3 аудіо кодер для покращення синхронізації руху рота та динаміки губ. Завдяки Whisper-large-v3 акустичне уявлення значно покращило стабільність мульти-мовної та міжмовної генерації руху губ. Для підвищення часової стабільності фреймворк використовує багатофрагментний скользящий аналіз у довгих відео для збереження послідовності ідентичності персонажа. На стороні аналізу застосовується технологія дистиляції на основі DMD2 з меншим числом кроків, зменшуючи кількість ітерацій шумоподавлення до 8, що прискорює аналіз до 8 NFE та балансуючи ефективність аналізу і точність зображення. Оцінка моделі проводилася на 508 пар зображень та аудіо. Залучено 770 оцінювачів для краудсорсингової оцінки та зібрано 13240 суджень, а також 10 експертів оцінювали за такими критеріями, як фізична обґрунтованість, координація, часові стабільність та ідентичність. Офіційно продемонстровано порівняння з HeyGen, Kling Avatar 2.0, OmniHuman-1.5, з акцентом на покращення часової стабільності, ідентичності та природності руху губ. Окрім реалістичних портретів, фреймворк також може бути застосований до стилів аніме та тварин, а також підтримує моно- та багатоканальний аудіовхід. Ваги моделі випущені за ліцензією MIT. Також на сторінці проекту зазначено, що створений контент використовується виключно для академічних цілей і не дозволяється для комерційного використання. Для комерційного застосування потрібно окремо перевіряти ваги, код, матеріали та межі створеного контенту. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

8 лайків

Нагородити
8
11
2
Поділіться

Прокоментувати

Додати коментар

HedgeHedgeBaby

· 2год тому

Підтримка багатоканального нативного звуку, це потрібно для тих, хто робить сегментацію подкастів

Переглянути оригіналвідповісти на0

LendingRateAnxiety

· 2год тому

10 експертів оцінили конкретно, що саме, чи детально описано це у статті?

Переглянути оригіналвідповісти на0

TheWaveOfRasterization

· 3год тому

MIT ліцензія високо оцінена, дружня до академічної спільноти

Переглянути оригіналвідповісти на0

GlassBottleFeather

· 3год тому

Чи стала дистиляція DMD2 стандартною практикою? Відчувається, що всі використовують її.

Переглянути оригіналвідповісти на0

ReboundAtTheStreetCornerAfter

· 3год тому

动物风格是什么鬼，猫说话？

відповісти на0

GateUser-dd8dffab

· 3год тому

Підвищення узгодженості особистості є дуже важливим, раніше при зміні ракурсу легко було виглядати не як одна й та сама людина.

Переглянути оригіналвідповісти на0

GateUser-c29c3db9

· 3год тому

770 оцінювачів, 13240 суджень, чи серйозно ця масштабність оцінки

Переглянути оригіналвідповісти на0

BridgeTroll

· 3год тому

Генералізація в стилі аніме — це пасхалка, у другому творчому колі стане гаряче

Переглянути оригіналвідповісти на0

CandleAfterTheRain

· 3год тому

Плавне мислення — цей дизайн дуже гарний, довгі відео не зламаються

Переглянути оригіналвідповісти на0

GateUser-deff9ed8

· 3год тому

Мультимовні міміки нарешті стали доступними, раніше англійська модель завжди неправильно відтворювала китайські міміки.

Переглянути оригіналвідповісти на0

Дізнатися більше

Популярні теми
Дізнатися більше
#
TradfiTradingChallenge
254.86K Популярність
#
PlatinumCardCreatorExclusive
65.31K Популярність
#
IsraelStrikesIranBTCPlunges
48.62K Популярність
#
#DailyPolymarketHotspot
1.03M Популярність
#
GateSquarePizzaDay
1.72M Популярність

Закріплено

карта сайту

Мітуань відкрила вихідний код LongCat-Video-Avatar1.5 — фреймворк цифрового персонажа, зменшивши кількість кроків в обчислювальному процесі до 8

Популярні теми

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закріплено