Xiaomi lanza OmniVoice de código abierto: un modelo de clonación de voz que cubre 646 idiomas, entrenado con datos completamente de código abierto para superar a los sistemas comerciales

robot
Generación de resúmenes en curso

Según la monitorización de Beating, el nuevo equipo de Kaldi del Laboratorio de IA de Xiaomi ha abierto el código de OmniVoice, un modelo de clonación de voz TTS (texto a voz) de cero muestras que soporta 646 idiomas. Con unos segundos de audio de referencia, puede clonar la tonalidad, incluso en diferentes idiomas: si se proporciona una grabación en chino, el modelo puede hablar en japonés, coreano u otros idiomas con la misma voz. Todo el código, pesos y datos de entrenamiento son de código abierto, bajo licencia Apache-2.0.

En cuanto a la arquitectura, OmniVoice sigue una línea minimalista. Todo el modelo consta de un solo transformador bidireccional, que mapea directamente del texto a tokens acústicos de código múltiple (codificación discreta de sonido), sin necesidad de una pipeline en dos etapas que primero convierta en tokens semánticos y luego en tokens acústicos. Dos diseños clave sostienen esta estructura sencilla: una estrategia de enmascaramiento aleatorio de todos los tokens para mejorar la eficiencia del entrenamiento, y la inicialización con parámetros preentrenados de modelos de lenguaje grande para mejorar la precisión de pronunciación. La velocidad de inferencia es 40 veces en tiempo real, ejecutándose directamente en PyTorch sin necesidad de optimizaciones adicionales.

Los datos de entrenamiento provienen completamente de 50 conjuntos de datos de voz de código abierto, filtrados por reducción de ruido y calidad, sumando en total 580,000 horas. Para idiomas con recursos limitados, se usa sobremuestreo dinámico para garantizar la efectividad del entrenamiento. En pruebas con 24 idiomas, OmniVoice supera en similitud y comprensibilidad a varias soluciones comerciales. En pruebas con 102 idiomas, la inteligibilidad se acerca o incluso supera a grabaciones reales. Incluso idiomas con menos de 10 horas de datos de entrenamiento pueden ser sintetizados.

Además de la clonación de voz, el modelo soporta la personalización del tono mediante descripciones textuales (como “hombre, de mediana edad, tono muy bajo” o “mujer, joven, acento de Sichuan”), reducción automática de ruido con audio de referencia, inserción de símbolos de tono y emociones como risa o suspiro, y corrección en la pronunciación de caracteres con múltiples lecturas en chino e inglés, así como nombres propios.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado