Xiaomi abre código de OmniVoice: un modelo que cubre la clonación de voz en 646 idiomas

robot
Generación de resúmenes en curso

Mensaje de Coinjie.com, el nuevo equipo de Kaldi del Laboratorio de IA de Xiaomi ha abierto el código de OmniVoice, un modelo de TTS (texto a voz) de clonación de voz sin muestras que soporta 646 idiomas.
El modelo puede clonar el tono usando solo unos segundos de audio de referencia, soportando conversión entre idiomas.
El código, los pesos y los datos de entrenamiento son completamente de código abierto, bajo la licencia Apache-2.0.
La arquitectura de OmniVoice sigue una línea minimalista, con solo un transformador bidireccional, mapeando directamente del texto a tokens acústicos de múltiples códigos, sin necesidad de una línea de producción en dos etapas.
Los datos de entrenamiento provienen de 50 conjuntos de datos de voz de código abierto, filtrados por reducción de ruido y calidad, sumando un total de 580,000 horas.
En pruebas en 24 idiomas, la similitud de voz y la inteligibilidad superan a varios sistemas comerciales, y en 102 idiomas, la inteligibilidad es cercana o incluso superior a grabaciones reales.
Además de la clonación de voz, el modelo también soporta la personalización del tono mediante descripciones de texto, y funciones como reducción automática de ruido en audio de referencia con ruido.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado