De Whisper à DMD2 distillation, la pile technologique est vraiment solide, la généralisation multilingue et au style anime est très attrayante pour moi, qui fais du second degré.

Voir l'original
MeNews
Meituan open source LongCat-Video-Avatar1.5 cadre numérique de raisonnement réduit à 8 étapes
L'équipe LongCat de Meituan open source LongCat-Video-Avatar 1.5, publie entièrement le code et les poids.
Utilise Whisper-large-v3 pour améliorer la synchronisation labiale multilingue et la généralisation du style,
adopte une inférence en défilement multi-fragments et une distillation à peu d'étapes basée sur DMD2 pour réduire l'inférence à 8 étapes,
tout en équilibrant vitesse et fidélité.
Après 508 paires de données sources, 770 évaluateurs avec 13240 jugements et 10 experts,
l'amélioration significative de la stabilité temporelle, de la cohérence de l'identité et du naturel des mouvements de la bouche,
est démontrée, avec une capacité de généralisation aux styles d'anime et d'animaux,
support natif pour audio mono/ multi-piste.
Licence MIT, principalement pour un usage académique, pour un usage commercial, une vérification supplémentaire est requise.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé