ME AI Message, selon le suivi Beating, l'équipe LongCat de Meituan a open source le cadre de génération de vidéos de portraits audio LongCat-Video-Avatar 1.5, avec tout le code et les poids du modèle désormais accessibles. Cette mise à jour remplace Wav2Vec2 par l'encodeur audio Whisper-Large, visant à offrir une meilleure cohérence d'identité sur de longues vidéos et une capacité de généralisation de style plus large. Le cadre utilise désormais l'encodeur audio Whisper-large-v3 pour améliorer la synchronisation des lèvres et la dynamique des mouvements labiaux. La représentation acoustique apportée par Whisper-large-v3 améliore considérablement la stabilité de la génération de mouvements labiaux multilingues et interlangues. Pour renforcer la stabilité temporelle, le cadre adopte une inférence à segments multiples en défilement lors de la génération de longues vidéos, afin de maintenir la cohérence de l'identité du personnage. Sur le côté inférence, une technique de distillation à peu d'étapes basée sur DMD2 est introduite, réduisant le nombre d'itérations de débruitage à 8, accélérant l'inférence à 8 NFE tout en équilibrant efficacité et fidélité de l'image. L’évaluation du modèle a été réalisée sur 508 paires source image-audio. Une évaluation par crowdsourcing a impliqué 770 évaluateurs avec 13 240 jugements, complétée par 10 experts notant selon la rationalité physique, la coordination, la stabilité temporelle et la cohérence d’identité. La présentation officielle compare le cadre à HeyGen, Kling Avatar 2.0 et OmniHuman-1.5, en mettant l’accent sur l’amélioration de la stabilité temporelle, de la cohérence d’identité et du mouvement labial naturel. En plus des portraits réalistes, le cadre peut également généraliser aux styles anime et animaux, et supporte nativement l’entrée audio mono ou multicanal. Les poids du modèle sont publiés sous licence MIT. Par ailleurs, la déclaration éthique de la page indique que le contenu généré présenté est uniquement destiné à un usage académique, et ne doit pas être utilisé commercialement. Toute utilisation commerciale réelle nécessite une vérification séparée des poids, du code, des matériaux et des limites du contenu généré. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

10 J'aime

Récompense
10
12
2
Partager

Commentaire

Ajouter un commentaire

GateUser-af0ea0c9

· Il y a 4h

Il faut encore en discuter pour un usage commercial, c'est la vieille méthode des grands acteurs open source.

Voir l'originalRépondre0

HedgeHedgeBaby

· Il y a 7h

Support natif pour le mono et le multicanal, cela est nécessaire pour ceux qui découpent des podcasts

Voir l'originalRépondre0

LendingRateAnxiety

· Il y a 8h

Que précisément ont évalué les 10 experts, est-ce détaillé dans l'article ?

Voir l'originalRépondre0

TheWaveOfRasterization

· Il y a 8h

Licence MIT appréciée, conviviale pour la recherche académique

Voir l'originalRépondre0

GlassBottleFeather

· Il y a 8h

La distillation DMD2 est-elle maintenant devenue la norme ? On dirait que tout le monde l'utilise.

Voir l'originalRépondre0

ReboundAtTheStreetCornerAfter

· Il y a 9h

动物风格是什么鬼，猫说话？

Répondre0

GateUser-dd8dffab

· Il y a 9h

L'amélioration de la cohérence de l'identité est essentielle, car changer de perspective auparavant pouvait donner l'impression que ce n'était pas la même personne.

Voir l'originalRépondre0

GateUser-c29c3db9

· Il y a 9h

770 évaluateurs 13240 jugements, cette échelle d'évaluation est-elle sérieusement prise en compte ?

Voir l'originalRépondre0

BridgeTroll

· Il y a 9h

La généralisation du style anime est une surprise, le cercle de la création secondaire va devenir animé.

Voir l'originalRépondre0

CandleAfterTheRain

· Il y a 9h

La conception de la déduction par défilement est géniale, la vidéo longue ne plante pas.

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
264.37K Popularité
#
PlatinumCardCreatorExclusive
72.52K Popularité
#
IsraelStrikesIranBTCPlunges
48.62K Popularité
#
#DailyPolymarketHotspot
1.03M Popularité
#
GateSquarePizzaDay
606.77K Popularité

Épinglé

Meituan open source LongCat-Video-Avatar1.5 cadre numérique de raisonnement réduit à 8 étapes

Sujets populaires

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Épinglé