Meituan открыла исходный код LongCat-Video-Avatar 1.5 — фреймворк цифрового человека, сокращённый до 8 шагов вывода

robot
Генерация тезисов в процессе
Новости сайта Биткойн-мира: команда Meitu Changmao открыла исходный код фреймворка для генерации цифровых персонажей LongCat-Video-Avatar 1.5, переработала алгоритмы извлечения аудио и генерации видео, сделав акцент на промышленном уровне временной и пространственной стабильности и быстром выводе. Фреймворк заменил кодировщик wav2vec2 на аудиокодировщик whisper-large-v3, улучшив синхронизацию губ и динамику губ, повысив устойчивость к многоязычной и межъязыковой генерации мимики. Модель оптимизирована с помощью обучения с усилением GRPO, снизив искажения при деформации рук и аномальные артефакты при пропуске кадров, повысив согласованность личности в длинных видео. Фреймворк использует скользящую обработку по нескольким сегментам, используя предыдущие видео для формирования глобального временного контекста, обеспечивая последовательность роли. В режиме вывода внедрена техника дистилляции DMD2 с малым числом шагов, сокращая итерации шумоподавления до 8, балансируя эффективность вывода и точность изображения. Оценка проводилась на 508 пар изображений и аудио, собрав 13240 оценочных суждений от 770 экспертов по различным критериям. Фреймворк может быть адаптирован к стилям анимации и животных, поддерживает моно- и многоканальный ввод аудио, веса модели опубликованы по лицензии MIT, демонстрационный контент предназначен только для научных целей, коммерческое использование требует проверки соответствующих условий.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 11
  • 3
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
MoonlightColdWallet
· 05-22 10:09
GRPO уделяет внимание деталям рук, это довольно интересно, старый недостаток диффузионных моделей — это катастрофа с пальцами
Посмотреть ОригиналОтветить0
BudgetValidator
· 05-22 07:58
whisper-large-v3 действительно значительно точнее совпадает с артикуляцией, раньше в сценариях wav2vec2 multilingual часто не совпадало
Посмотреть ОригиналОтветить0
GateUser-6319729f
· 05-22 07:31
MIT лицензия получает положительные отзывы, но условия коммерческого использования нужно внимательно изучить, чтобы не попасть в ловушку
Посмотреть ОригиналОтветить0
GateUser-af0ea0c9
· 05-22 07:26
Повышение стабильности во времени и пространстве гораздо важнее, чем просто увеличение FID, наконец-то видео-генерация движется в правильном направлении
Посмотреть ОригиналОтветить0
SlippageSailor
· 05-22 07:19
Должен ли я включать или исключать академические наборы данных? Хочу попробовать воспроизвести.
Посмотреть ОригиналОтветить0
GateUser-f4ae43e9
· 05-22 07:19
Многофрагментное скользящее рассуждение — это умный дизайн, важно, чтобы длинное видео не приводило к сбою лица.
Посмотреть ОригиналОтветить0
GotLiquidatedAgainLastNight.
· 05-22 07:10
LongCat это имя, кто его придумал, инженеры Meituan тоже любят котиков?
Посмотреть ОригиналОтветить0
DeltaSmile
· 05-22 07:10
Поддержка моно и многоканального звука, отлично подходит для создания озвучивания.
Посмотреть ОригиналОтветить0
SeaSaltAirdropNotes
· 05-22 07:10
Поддержание идентичности наконец-то кто-то взялся делать всерьёз, раньше во второй половине видео с заменой лица часто менялись люди
Посмотреть ОригиналОтветить0
CrystalBallForSentiment
· 05-22 07:10
На сколько увеличилась эффективность DMD2? Есть ли данные о задержке на A100?
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено