Le découplage temps-tonalité est une conception assez intéressante, on n'a plus à écouter ces effets sonores en conserve uniformes d'IA pour la narration, j'ai hâte de l'essayer en pratique.

Voir l'original
CoinNetwork
Le site Web de Coinjie annonce que l'équipe du grand modèle de Xiaomi a publié et open-sourcé le cadre de génération de vidéos et d'effets sonores ControlFoley.
L'accent de ce modèle est mis sur la « contrôlabilité », capable de doubler selon l'image, ainsi que d'accepter des descriptions textuelles ou des audio de référence, permettant au son de générer selon l'intention du créateur.
ControlFoley utilise un encodeur spatio-temporel audio-vidéo basé sur une transformation de cav-mae, et introduit une stratégie de « découplage temps-tonalité », garantissant la synchronisation du son avec l'image.
Ce modèle a atteint le niveau SOTA open-source dans plusieurs tests de doublage vidéo courants, et le rapport technique, le code, les poids du modèle et la démo du projet sont tous disponibles.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé