Le TTS open source est enfin passé à la diffusion en flux en temps réel, Higgs Audio v3 a une gestion de la latence assez impressionnante, la clonage sans échantillon + l'étiquetage émotionnel sont assez sophistiqués.

Voir l'original
CoinNetwork
Boson AI modèle audio open source 4B Higgs Audio v3, prend en charge le contrôle émotionnel en streaming
Boson AI open source Higgs Audio v3 TTS poids, basé sur Qwen3-4B, environ 4 milliards de paramètres, optimisé pour la conversation en flux en temps réel, synthèse commencée avant la fin du texte pour réduire la latence. Supporte plus de 100 langues/dialectes, le taux d'erreur de mots et caractères réduit à un chiffre, supporte la clonage vocal zéro échantillon et peut intégrer plus de 20 émotions et étiquettes de contrôle multi-classes dans le texte. En collaboration avec LMSYS, une optimisation de bout en bout est réalisée dans le cadre de SGLang-Omni, avec un taux en temps réel de 0,147 pour une seule instance H100 en parallèle. Les poids ont été publiés sur Hugging Face, sous une licence de recherche non commerciale.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé