Rapport technique, poids, démo tout dévoilé, la comparaison avec Kling-Foley n'est pas inférieure, la communauté open source dispose enfin d'un cadre vidéo et audio capable de rivaliser.

Voir l'original
BlockBeatNews
Xiaomi open-source le modèle de doublage vidéo ControlFoley, la façon dont le son est associé est laissée à la décision de chacun
Sous la surveillance de Beating, l'équipe Xiaomi a open source le cadre audio-vidéo ControlFoley, en insistant sur la contrôlabilité : générer des sons à partir d'images, de textes ou d'audios de référence, tout en pouvant modifier le style sonore tout en maintenant la synchronisation audio-vidéo.
L'architecture de bas niveau utilise un encodeur audio-vidéo spatio-temporel modifié à partir de CAV-MAE, réalisant une déconnexion entre le temps et la tonalité.
L'évaluation multi-tâches atteint le SOTA open source, et est compétitive par rapport à Kling-Foley, mais présente encore un écart sur certains indicateurs KL dans Kling-Audio-Eval et MovieGen-Audio-Bench.
Le projet a publié un rapport technique, le code, les poids et une démo.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé