Meituan открыла исходный код LongCat-Video-Avatar1.5 — фреймворк цифрового человека, сокращённый до 8 шагов для вывода

robot
Генерация тезисов в процессе
ME AI Сообщение, согласно мониторингу Beating, команда LongCat от Meituan выпустила открытый исходный код системы генерации лицевых видео и аудио LongCat-Video-Avatar 1.5, полностью открыв код и веса модели. В этом обновлении заменен аудиокодек Wav2Vec2 на Whisper-Large, чтобы обеспечить более сильную согласованность личности в длинных видео и более широкую универсальность стилей.
Фреймворк использует аудиокодек Whisper-large-v3 для улучшения синхронизации губ и динамики рта. Акустические характеристики Whisper-large-v3 значительно повысили стабильность генерации мультиязычных и межъязыковых движений губ.
Для повышения временной стабильности в длинных видео фреймворк применяет скользящую обработку сегментов для сохранения согласованности личности персонажа.
На этапе inference внедрена техника дистилляции на основе DMD2 с малым числом шагов, что сокращает итерации шумоподавления до 8 шагов, ускоряя inference до 8 NFE и одновременно балансируя эффективность и качество изображения.
Оценка модели проводилась на 508 парах изображений и аудио источников.
Краудсорсинговая оценка включала 770 оценщиков и сбор 13240 оценок, а также 10 экспертов, которые оценивали по критериям физической реалистичности, координации, временной стабильности и согласованности личности.
Официально продемонстрировано сравнение с HeyGen, Kling Avatar 2.0 и OmniHuman-1.5, с акцентом на улучшение временной стабильности, согласованности личности и естественности движений губ.
Помимо реалистичных портретов, фреймворк также способен обобщаться на стили анимации и животных, а также нативно поддерживает моно- и многоканальный аудиовход.
Вес модели опубликован по лицензии MIT.
Также на странице проекта указано, что созданный контент предназначен только для академических целей, коммерческое использование не разрешено.
Для коммерческого применения необходимо отдельно проверить границы использования весов, кода, материалов и сгенерированного контента.
(Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 12
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
GateUser-af0ea0c9
· 2ч назад
Коммерческое использование требует отдельного обсуждения, это старый прием крупных компаний, открывающих исходный код.
Посмотреть ОригиналОтветить0
HedgeHedgeBaby
· 5ч назад
Поддержка нативного многоканального звука, это нужно для тех, кто занимается нарезкой подкастов
Посмотреть ОригиналОтветить0
LendingRateAnxiety
· 5ч назад
10 экспертов оценили конкретно что, подробно ли описано в статье?
Посмотреть ОригиналОтветить0
TheWaveOfRasterization
· 6ч назад
MIT лицензия положительно оценивается, дружелюбна к академической среде
Посмотреть ОригиналОтветить0
GlassBottleFeather
· 6ч назад
DMD2 дистилляция сейчас стала стандартной? Кажется, все используют.
Посмотреть ОригиналОтветить0
ReboundAtTheStreetCornerAfter
· 6ч назад
动物风格是什么鬼,猫说话?
Ответить0
GateUser-dd8dffab
· 6ч назад
Повышение согласованности личности очень важно, ранее при смене точки зрения легко было казаться не одним и тем же человеком.
Посмотреть ОригиналОтветить0
GateUser-c29c3db9
· 6ч назад
770 оценщиков, 13240 решений, действительно ли такой масштаб оценки серьезен?
Посмотреть ОригиналОтветить0
BridgeTroll
· 6ч назад
Генерализация в стиле аниме — это пасхалка, вторая творческая сцена станет оживленной
Посмотреть ОригиналОтветить0
CandleAfterTheRain
· 6ч назад
Плавное рассуждение — очень умное решение, длинные видео не падают.
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено