Команда Meituan Changmao открыла исходный код LongCat-Video-Avatar 1.5, переработав генерацию аудио и видео для повышения временно-пространственной стабильности и скорости вывода. Заменив wav2vec2 на whisper-large-v3, улучшена синхронизация губ и устойчивость к нескольким языкам; с помощью обучения с усилением GRPO снижены артефакты рук и ошибки кадров, укреплена идентичность в длинных видео. Используются многофрагментное скользящее рассуждение и предварительный контекст, 8-шаговая дистилляция DMD2 балансирует эффективность и точность. Фреймворк может быть обобщен на стили анимации/животных, поддерживает моно/многоканальный звук, лицензия MIT, в основном для академического использования, для коммерческого использования уточняйте.

CoinNetwork

2026-05-22 07:03:57

Генерация тезисов в процессе

Новости сайта Биткойн-мира: команда Meitu Changmao открыла исходный код фреймворка для генерации цифровых персонажей LongCat-Video-Avatar 1.5, переработала алгоритмы извлечения аудио и генерации видео, сделав акцент на промышленном уровне временной и пространственной стабильности и быстром выводе. Фреймворк заменил кодировщик wav2vec2 на аудиокодировщик whisper-large-v3, улучшив синхронизацию губ и динамику губ, повысив устойчивость к многоязычной и межъязыковой генерации мимики. Модель оптимизирована с помощью обучения с усилением GRPO, снизив искажения при деформации рук и аномальные артефакты при пропуске кадров, повысив согласованность личности в длинных видео. Фреймворк использует скользящую обработку по нескольким сегментам, используя предыдущие видео для формирования глобального временного контекста, обеспечивая последовательность роли. В режиме вывода внедрена техника дистилляции DMD2 с малым числом шагов, сокращая итерации шумоподавления до 8, балансируя эффективность вывода и точность изображения. Оценка проводилась на 508 пар изображений и аудио, собрав 13240 оценочных суждений от 770 экспертов по различным критериям. Фреймворк может быть адаптирован к стилям анимации и животных, поддерживает моно- и многоканальный ввод аудио, веса модели опубликованы по лицензии MIT, демонстрационный контент предназначен только для научных целей, коммерческое использование требует проверки соответствующих условий.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

10 Лайков

Награда
10
11
3
Поделиться

комментарий

Добавить комментарий

MoonlightColdWallet

· 05-22 10:09

GRPO уделяет внимание деталям рук, это довольно интересно, старый недостаток диффузионных моделей — это катастрофа с пальцами

Посмотреть ОригиналОтветить0

BudgetValidator

· 05-22 07:58

whisper-large-v3 действительно значительно точнее совпадает с артикуляцией, раньше в сценариях wav2vec2 multilingual часто не совпадало

Посмотреть ОригиналОтветить0

GateUser-6319729f

· 05-22 07:31

MIT лицензия получает положительные отзывы, но условия коммерческого использования нужно внимательно изучить, чтобы не попасть в ловушку

Посмотреть ОригиналОтветить0

GateUser-af0ea0c9

· 05-22 07:26

Повышение стабильности во времени и пространстве гораздо важнее, чем просто увеличение FID, наконец-то видео-генерация движется в правильном направлении

Посмотреть ОригиналОтветить0

SlippageSailor

· 05-22 07:19

Должен ли я включать или исключать академические наборы данных? Хочу попробовать воспроизвести.

Посмотреть ОригиналОтветить0

GateUser-f4ae43e9

· 05-22 07:19

Многофрагментное скользящее рассуждение — это умный дизайн, важно, чтобы длинное видео не приводило к сбою лица.

Посмотреть ОригиналОтветить0

GotLiquidatedAgainLastNight.

· 05-22 07:10

LongCat это имя, кто его придумал, инженеры Meituan тоже любят котиков?

Посмотреть ОригиналОтветить0

DeltaSmile

· 05-22 07:10

Поддержка моно и многоканального звука, отлично подходит для создания озвучивания.

Посмотреть ОригиналОтветить0

SeaSaltAirdropNotes

· 05-22 07:10

Поддержание идентичности наконец-то кто-то взялся делать всерьёз, раньше во второй половине видео с заменой лица часто менялись люди

Посмотреть ОригиналОтветить0

CrystalBallForSentiment

· 05-22 07:10

На сколько увеличилась эффективность DMD2? Есть ли данные о задержке на A100?

Посмотреть ОригиналОтветить0

Подробнее

Популярные темы
Подробнее
#
TradfiTradingChallenge
319.61K Популярность
#
PlatinumCardCreatorExclusive
114.76K Популярность
#
IsraelStrikesIranBTCPlunges
49.03K Популярность
#
#DailyPolymarketHotspot
1.05M Популярность
#
GateSquarePizzaDay
648.72K Популярность

Закреплено

Карта сайта

Meituan открыла исходный код LongCat-Video-Avatar 1.5 — фреймворк цифрового человека, сокращённый до 8 шагов вывода

Популярные темы

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закреплено