El equipo de Kaldi del Laboratorio de IA de Xiaomi ha lanzado OmniVoice de código abierto, que soporta clonación de voz TTS de cero muestras en 646 idiomas, puede clonar la voz en unos segundos con un audio de referencia y realizar conversiones entre idiomas. El código, los pesos y los datos de entrenamiento son completamente de código abierto (Apache-2.0). OmniVoice utiliza solo un transformador bidireccional para mapear directamente el texto a tokens acústicos de múltiples códigos, sin necesidad de una línea de proceso en dos etapas. Los datos de entrenamiento provienen de 50 conjuntos de datos de código abierto, filtrados por reducción de ruido, alcanzando 580,000 horas. En pruebas en 24 idiomas, la calidad de sonido y la inteligibilidad superan a muchos sistemas comerciales, y en 102 idiomas, la inteligibilidad se acerca o incluso supera a grabaciones reales. También soporta la personalización del tono mediante descripción de texto, reducción automática de ruido en referencias con ruido, etc.

CoinNetwork

2026-05-07 10:29:33

Generación de resúmenes en curso

Mensaje de Coinjie.com, el nuevo equipo de Kaldi del Laboratorio de IA de Xiaomi ha abierto el código de OmniVoice, un modelo de TTS (texto a voz) de clonación de voz sin muestras que soporta 646 idiomas.
El modelo puede clonar el tono usando solo unos segundos de audio de referencia, soportando conversión entre idiomas.
El código, los pesos y los datos de entrenamiento son completamente de código abierto, bajo la licencia Apache-2.0.
La arquitectura de OmniVoice sigue una línea minimalista, con solo un transformador bidireccional, mapeando directamente del texto a tokens acústicos de múltiples códigos, sin necesidad de una línea de producción en dos etapas.
Los datos de entrenamiento provienen de 50 conjuntos de datos de voz de código abierto, filtrados por reducción de ruido y calidad, sumando un total de 580,000 horas.
En pruebas en 24 idiomas, la similitud de voz y la inteligibilidad superan a varios sistemas comerciales, y en 102 idiomas, la inteligibilidad es cercana o incluso superior a grabaciones reales.
Además de la clonación de voz, el modelo también soporta la personalización del tono mediante descripciones de texto, y funciones como reducción automática de ruido en audio de referencia con ruido.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
560.14K Popularidad
#
BTCPullback
106.31M Popularidad
#
IsraelStrikesIranBTCPlunges
43.76K Popularidad
#
CLARITYActStalled
3.28M Popularidad
#
CryptoStocksRally
1.42M Popularidad

Anclado

Xiaomi abre código de OmniVoice: un modelo que cubre la clonación de voz en 646 idiomas

Temas de actualidad

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

Anclado