#STT# Comentario sobre el nuevo modelo de voz de OpenAI


OpenAI ha lanzado dos nuevos modelos de STT (conversión de voz a texto) y un modelo de TTS (conversión de texto a voz).
He probado brevemente el modelo TTS y siento que la esencia de la IA es aún muy fuerte, especialmente en la pronunciación del TTS en chino, que es rígida, poco fluida e incluso presenta errores de pronunciación evidentes.
En el ámbito de TTS en chino, siento que los TTS de ByteDance y Azure son comercializables, mientras que el de OpenAI aún no lo es. Supongo que tiene que ver con la cantidad de datos de entrenamiento.
No he experimentado con el STT en chino, pero según el gráfico de comparación de rendimiento proporcionado por OpenAI, scribe-v1 ha superado a OpenAI.
LLM
Desventajas de la separación:
- La separación de los tres desde el punto de vista de la aplicación genera una gran cantidad de trabajo, y la cadena de llamadas en su conjunto es compleja, lo que hace que sea difícil garantizar una fluidez en los retrasos.
LLM este paso seguramente perderá información (entonación, tono, emoción, etc.), y esta información es más importante en la comunicación humana (imagina que tu novia te dice "me molesta", ¿qué tono representa qué significado?).
Se estima que la cantidad de entrenamiento y el volumen de cálculo del modelo integrado no están en la misma magnitud, por lo que actualmente se ha elegido de esta manera, una elección de trade-off.
STT-4.19%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 1
  • Republicar
  • Compartir
Comentar
0/400
pi币pivip
· 03-21 23:35
¡introducir una posición! 🚗
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)