Meituan open source LongCat-Video-Avatar 1.5 cadre numérique de raisonnement réduit à 8 étapes

robot
Création du résumé en cours
消息 de Jièjiè Wǎng, l'équipe de Changmao de Meituan a open source le cadre de génération de personnages numériques LongCat-Video-Avatar 1.5, restructurant les algorithmes d'extraction audio et de génération vidéo, mettant en avant la stabilité spatio-temporelle industrielle et la rapidité de l'inférence.
Le cadre remplace l'encodeur wav2vec2 par l'encodeur audio whisper-large-v3, améliorant la synchronisation des mouvements de la bouche et la dynamique des lèvres, renforçant la robustesse de la génération de mouvements de bouche multilingues et interlinguistiques.
Le modèle est optimisé par un apprentissage par renforcement renforcé GRPO, réduisant les artefacts tels que la déformation des mains et les images aberrantes, améliorant la cohérence de l'identité dans les vidéos longues.
Le cadre utilise une inférence à segments multiples en défilement, exploitant la vidéo précédente pour établir un contexte temporel global, maintenant la cohérence de l'identité du personnage.
L'inférence introduit la technique de distillation à peu d'étapes DMD2, compressant l'itération de débruitage en 8 étapes, équilibrant efficacité de l'inférence et fidélité de l'image.
L’évaluation, basée sur 508 paires d’images et d’échantillons audio, a recueilli 13 240 jugements de 770 évaluateurs, avec 10 experts notant selon plusieurs dimensions.
Le cadre peut être généralisé aux styles anime et animal, supporte l'entrée audio mono et multicanal, et les poids du modèle sont publiés sous licence MIT.
Le contenu présenté est uniquement destiné à un usage académique, toute utilisation commerciale doit vérifier le contenu concerné.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 11
  • 3
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
MoonlightColdWallet
· 05-22 10:09
GRPO s'intéresse un peu aux détails des mains, le problème classique des modèles de diffusion est la catastrophe des doigts
Voir l'originalRépondre0
BudgetValidator
· 05-22 07:58
whisper-large-v3 aligner vraiment plus précis pour la synchronisation des lèvres, auparavant le scénario wav2vec2 multilingue ne correspondait souvent pas
Voir l'originalRépondre0
GateUser-6319729f
· 05-22 07:31
Licence MIT appréciée, mais il faut examiner attentivement les conditions d'utilisation commerciale pour éviter les pièges
Voir l'originalRépondre0
GateUser-af0ea0c9
· 05-22 07:26
L'amélioration de la stabilité spatio-temporelle a beaucoup plus de sens que simplement augmenter le FID, la génération vidéo est enfin en compétition dans la bonne direction
Voir l'originalRépondre0
SlippageSailor
· 05-22 07:19
Faut-il inclure ou non un ensemble de données principalement académique ? Je veux essayer de reproduire.
Voir l'originalRépondre0
GateUser-f4ae43e9
· 05-22 07:19
La conception de la inférence à segments multiples est intelligente, il est crucial que les longues vidéos ne fassent pas planter le visage.
Voir l'originalRépondre0
GotLiquidatedAgainLastNight.
· 05-22 07:10
LongCat ce nom a été choisi par qui, les ingénieurs de Meituan aussi aiment-ils adopter des chats ?
Voir l'originalRépondre0
DeltaSmile
· 05-22 07:10
Le son mono et multicanal sont tous pris en charge, ce qui est très adapté pour un outil de doublage.
Voir l'originalRépondre0
SeaSaltAirdropNotes
· 05-22 07:10
La cohérence de l'identité est enfin prise au sérieux, auparavant la seconde moitié des vidéos de changement de visage changeait souvent de personne
Voir l'originalRépondre0
CrystalBallForSentiment
· 05-22 07:10
De combien s'améliore l'efficacité de DMD2 ? Y a-t-il des données de latence sur l'A100 ?
Voir l'originalRépondre0
Afficher plus
  • Épinglé