Xiaomi open source OmniVoice : un modèle de clonage vocal couvrant 646 langues, entraîné sur des données entièrement open source pour surpasser les systèmes commerciaux

robot
Création du résumé en cours

Selon le système de surveillance Beating, le laboratoire Xiaomi AI a open source la nouvelle génération de l’équipe Kaldi, OmniVoice, un modèle TTS (text-to-speech) à clonage vocal zéro échantillon supportant 646 langues. En quelques secondes d’audio de référence, il peut cloner la tonalité vocale, même en multilingue : donner un enregistrement en chinois, le modèle peut parler en japonais, coréen ou d’autres langues avec la même voix. Le code, les poids et les données d’entraînement sont entièrement open source, sous licence Apache-2.0.

Sur le plan architectural, OmniVoice adopte une approche minimaliste. Le modèle entier ne comporte qu’un seul Transformer bidirectionnel, qui mappe directement le texte en tokens acoustiques à partir d’un double codebook (codage discret du son), sans nécessiter une pipeline en deux étapes pour transformer d’abord en tokens sémantiques puis en tokens acoustiques. Deux conceptions clés soutiennent cette structure simple : une stratégie de masquage aléatoire de tous les codebooks pour améliorer l’efficacité de l’entraînement, et une initialisation avec des paramètres pré-entraînés de grands modèles de langage pour améliorer la précision de la prononciation. La vitesse d’inférence est 40 fois plus rapide que le temps réel, et peut fonctionner directement avec PyTorch sans optimisation supplémentaire.

Les données d’entraînement proviennent entièrement de 50 jeux de données vocales open source, filtrés par réduction du bruit et amélioration de la qualité, totalisant 580 000 heures. Pour les langues à faibles ressources, une suréchantillonnage dynamique garantit l’efficacité de l’entraînement. Lors des tests sur 24 langues, la similarité vocale et la compréhensibilité d’OmniVoice dépassent plusieurs systèmes commerciaux. Sur 102 langues, la compréhensibilité est proche voire supérieure à celle d’enregistrements réels. Même pour des langues avec moins de 10 heures de données d’entraînement, la synthèse est possible.

En plus du clonage vocal, le modèle supporte la personnalisation du timbre par description textuelle (par exemple « homme, d’âge moyen, tonalité très basse » ou « femme, jeune, avec accent du Sichuan »), la réduction automatique du bruit avec audio de référence, l’insertion de symboles de ton comme rire ou soupir, ainsi que la correction de la prononciation pour les caractères polyphones en chinois et anglais et les noms propres.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler