От Whisper до DMD2 дистилляция, технологический стек довольно прочный, многоязычная и аниме-стильная генерализация очень привлекает меня как создателя вторичных работ.

Посмотреть Оригинал
MeNews
Meituan открыла исходный код LongCat-Video-Avatar1.5 — фреймворк цифрового человека, сокращённый до 8 шагов для вывода
Meituan LongCat команда открыла исходный код LongCat-Video-Avatar 1.5, полностью выпустив код и веса.
Переход на Whisper-large-v3 улучшил синхронизацию губ для мультиязычных, а также обобщение стилей,
используя скользящую обработку нескольких сегментов и дистилляцию с малым числом шагов на основе DMD2,
снизив количество шагов до 8, балансируя скорость и точность.
После 508 пар исходных данных, 770 оценщиков, 13240判ений и оценки 10 экспертов,
значительно повысилась временная стабильность, согласованность личности и естественность движений губ,
а также достигнуто обобщение на стили аниме и животных, нативная поддержка моно- и многоканальных аудио.
Лицензия MIT, преимущественно для академического использования, коммерческое использование требует отдельной проверки.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено