La TTS de código abierto finalmente ha llegado a la transmisión en tiempo real, Higgs Audio v3 tiene un control de latencia interesante, clonación sin muestras + etiquetado emocional se juega bastante bien

Ver original
CoinNetwork
Boson AI modelo de audio de código abierto 4B Higgs Audio v3, compatible con control emocional en streaming
Boson AI código abierto Higgs Audio v3 TTS pesos, basado en Qwen3-4B, aproximadamente 4 mil millones de parámetros, optimizado para diálogos en tiempo real en flujo continuo, comienza la síntesis antes de que el texto esté completo para reducir la latencia. Soporta más de 100 idiomas/dialectos, tasa de errores en palabras y caracteres reducida a cifras unitarias, soporta clonación de voz sin muestras y puede incrustar más de 20 emociones y múltiples etiquetas de control en el texto. En colaboración con LMSYS, implementa optimización de extremo a extremo en el marco SGLang-Omni, logrando una tasa en tiempo real de 0.147 con una sola instancia H100 en concurrencia. Los pesos ya están publicados en Hugging Face, bajo una licencia de investigación no comercial.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado