Meituan open source LongCat-Video-Avatar1.5 cadre numérique de raisonnement réduit à 8 étapes

robot
Création du résumé en cours
ME AI Message, selon le suivi Beating, l'équipe LongCat de Meituan a open source le cadre de génération de vidéos de portraits audio LongCat-Video-Avatar 1.5, avec tout le code et les poids du modèle désormais accessibles. Cette mise à jour remplace Wav2Vec2 par l'encodeur audio Whisper-Large, visant à offrir une meilleure cohérence d'identité sur de longues vidéos et une capacité de généralisation de style plus large. Le cadre utilise désormais l'encodeur audio Whisper-large-v3 pour améliorer la synchronisation des lèvres et la dynamique des mouvements labiaux. La représentation acoustique apportée par Whisper-large-v3 améliore considérablement la stabilité de la génération de mouvements labiaux multilingues et interlangues. Pour renforcer la stabilité temporelle, le cadre adopte une inférence à segments multiples en défilement lors de la génération de longues vidéos, afin de maintenir la cohérence de l'identité du personnage. Sur le côté inférence, une technique de distillation à peu d'étapes basée sur DMD2 est introduite, réduisant le nombre d'itérations de débruitage à 8, accélérant l'inférence à 8 NFE tout en équilibrant efficacité et fidélité de l'image. L’évaluation du modèle a été réalisée sur 508 paires source image-audio. Une évaluation par crowdsourcing a impliqué 770 évaluateurs avec 13 240 jugements, complétée par 10 experts notant selon la rationalité physique, la coordination, la stabilité temporelle et la cohérence d’identité. La présentation officielle compare le cadre à HeyGen, Kling Avatar 2.0 et OmniHuman-1.5, en mettant l’accent sur l’amélioration de la stabilité temporelle, de la cohérence d’identité et du mouvement labial naturel. En plus des portraits réalistes, le cadre peut également généraliser aux styles anime et animaux, et supporte nativement l’entrée audio mono ou multicanal. Les poids du modèle sont publiés sous licence MIT. Par ailleurs, la déclaration éthique de la page indique que le contenu généré présenté est uniquement destiné à un usage académique, et ne doit pas être utilisé commercialement. Toute utilisation commerciale réelle nécessite une vérification séparée des poids, du code, des matériaux et des limites du contenu généré. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 12
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-af0ea0c9
· Il y a 4h
Il faut encore en discuter pour un usage commercial, c'est la vieille méthode des grands acteurs open source.
Voir l'originalRépondre0
HedgeHedgeBaby
· Il y a 7h
Support natif pour le mono et le multicanal, cela est nécessaire pour ceux qui découpent des podcasts
Voir l'originalRépondre0
LendingRateAnxiety
· Il y a 8h
Que précisément ont évalué les 10 experts, est-ce détaillé dans l'article ?
Voir l'originalRépondre0
TheWaveOfRasterization
· Il y a 8h
Licence MIT appréciée, conviviale pour la recherche académique
Voir l'originalRépondre0
GlassBottleFeather
· Il y a 8h
La distillation DMD2 est-elle maintenant devenue la norme ? On dirait que tout le monde l'utilise.
Voir l'originalRépondre0
ReboundAtTheStreetCornerAfter
· Il y a 9h
动物风格是什么鬼,猫说话?
Répondre0
GateUser-dd8dffab
· Il y a 9h
L'amélioration de la cohérence de l'identité est essentielle, car changer de perspective auparavant pouvait donner l'impression que ce n'était pas la même personne.
Voir l'originalRépondre0
GateUser-c29c3db9
· Il y a 9h
770 évaluateurs 13240 jugements, cette échelle d'évaluation est-elle sérieusement prise en compte ?
Voir l'originalRépondre0
BridgeTroll
· Il y a 9h
La généralisation du style anime est une surprise, le cercle de la création secondaire va devenir animé.
Voir l'originalRépondre0
CandleAfterTheRain
· Il y a 9h
La conception de la déduction par défilement est géniale, la vidéo longue ne plante pas.
Voir l'originalRépondre0
Afficher plus
  • Épinglé