Le laboratoire AI de Xiaomi open source OmniVoice, un système de clonage vocal zéro-shot en 646 langues. Il utilise un seul transformeur bidirectionnel pour mapper le texte en tokens acoustiques discrets, sans pipeline en deux étapes. Le cœur repose sur un masquage aléatoire complet du vocabulaire et une initialisation par pré-entraînement avec de grands modèles, permettant une inférence 40 fois plus rapide en temps réel, exécutable avec PyTorch. L'entraînement provient de 50 ensembles de données open source, totalisant 580 000 heures, avec suréchantillonnage pour les langues à faibles ressources. Les tests sur 24 langues surpassent plusieurs systèmes commerciaux, et sur 102 langues, ils approchent la qualité d'enregistrements réels ; Il permet également de personnaliser la tonalité par description textuelle, de réduire automatiquement le bruit, d'ajouter des émotions et de corriger les noms propres.

BlockBeatNews

2026-05-07 10:35:45

Création du résumé en cours

Selon le système de surveillance Beating, le laboratoire Xiaomi AI a open source la nouvelle génération de l’équipe Kaldi, OmniVoice, un modèle TTS (text-to-speech) à clonage vocal zéro échantillon supportant 646 langues. En quelques secondes d’audio de référence, il peut cloner la tonalité vocale, même en multilingue : donner un enregistrement en chinois, le modèle peut parler en japonais, coréen ou d’autres langues avec la même voix. Le code, les poids et les données d’entraînement sont entièrement open source, sous licence Apache-2.0.

Sur le plan architectural, OmniVoice adopte une approche minimaliste. Le modèle entier ne comporte qu’un seul Transformer bidirectionnel, qui mappe directement le texte en tokens acoustiques à partir d’un double codebook (codage discret du son), sans nécessiter une pipeline en deux étapes pour transformer d’abord en tokens sémantiques puis en tokens acoustiques. Deux conceptions clés soutiennent cette structure simple : une stratégie de masquage aléatoire de tous les codebooks pour améliorer l’efficacité de l’entraînement, et une initialisation avec des paramètres pré-entraînés de grands modèles de langage pour améliorer la précision de la prononciation. La vitesse d’inférence est 40 fois plus rapide que le temps réel, et peut fonctionner directement avec PyTorch sans optimisation supplémentaire.

Les données d’entraînement proviennent entièrement de 50 jeux de données vocales open source, filtrés par réduction du bruit et amélioration de la qualité, totalisant 580 000 heures. Pour les langues à faibles ressources, une suréchantillonnage dynamique garantit l’efficacité de l’entraînement. Lors des tests sur 24 langues, la similarité vocale et la compréhensibilité d’OmniVoice dépassent plusieurs systèmes commerciaux. Sur 102 langues, la compréhensibilité est proche voire supérieure à celle d’enregistrements réels. Même pour des langues avec moins de 10 heures de données d’entraînement, la synthèse est possible.

En plus du clonage vocal, le modèle supporte la personnalisation du timbre par description textuelle (par exemple « homme, d’âge moyen, tonalité très basse » ou « femme, jeune, avec accent du Sichuan »), la réduction automatique du bruit avec audio de référence, l’insertion de symboles de ton comme rire ou soupir, ainsi que la correction de la prononciation pour les caractères polyphones en chinois et anglais et les noms propres.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
805.38K Popularité
#
BitcoinFallsBelow80K
95.04M Popularité
#
IsraelStrikesIranBTCPlunges
44.77K Popularité
#
IranUSConflictEscalates
98.62K Popularité
#
OilPriceRollerCoaster
309.33K Popularité

Épingler

Xiaomi open source OmniVoice : un modèle de clonage vocal couvrant 646 langues, entraîné sur des données entièrement open source pour surpasser les systèmes commerciaux

Sujets populaires

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Épingler