Passer de wav2vec2 à whisper-large-v3, l'amélioration de la robustesse de la synchronisation labiale multilingue est évidente, la frontière entre recherche académique et utilisation commerciale doit être clairement distinguée

Voir l'original
CoinNetwork
Meituan open source LongCat-Video-Avatar 1.5 cadre numérique de raisonnement réduit à 8 étapes
L'équipe LongCat de Meituan open source LongCat-Video-Avatar 1.5, une reconstruction de la génération audio-vidéo améliorant la stabilité spatio-temporelle et la vitesse d'inférence. Remplacement de wav2vec2 par whisper-large-v3, améliorant la synchronisation labiale et la robustesse multilingue ; renforcement par apprentissage par renforcement GRPO pour réduire les artefacts de main et les images erronées, renforçant la cohérence de l'identité sur de longues vidéos. Adoption d'une inférence en segments multiples avec contexte antérieur, DMD2 avec distillation en 8 étapes équilibrant efficacité et fidélité. Le cadre peut être généralisé au style anime/animal, supporte l'audio mono/multi-piste, sous licence MIT, principalement pour usage académique, vérifiez pour un usage commercial.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé