#STT# Critique du nouveau modèle vocal publié par OpenAI
OpenAI a lancé deux nouveaux modèles STT (speech-to-text) et un modèle TTS (text-to-speech). J'ai fait une simple expérience avec le modèle TTS, j'ai l'impression que l'IA est encore très présente, surtout la prononciation du TTS en chinois, qui est rigide, peu fluide et présente même des erreurs de prononciation évidentes. Dans le domaine de la TTS en chinois, je pense que la TTS de Byte et d'Azure peut être commercialisée, tandis que celle d'OpenAI n'est pas encore au point. Cela doit probablement être lié à la quantité de données d'entraînement. Je n'ai pas encore testé le STT en chinois, mais d'après le graphique de comparaison de performances fourni par OpenAI, le scribe-v1 a surpassé OpenAI. LLM Les inconvénients de la séparation : - Les trois sont séparés, ce qui rend le volume de travail énorme d'un point de vue applicatif, et la chaîne d'appels globale est complexe, rendant difficile d'assurer une latence fluide. - STT -\u003e LLMCette étape va inévitablement entraîner une perte d'informations (ton, intonation, émotions, etc.), et ces informations sont plus importantes dans la communication humaine (imaginez ce que signifie le ton lorsque votre petite amie vous dit "je déteste"). On estime que la quantité d'entraînement et de calcul des grands modèles fusionnés n'est pas du même ordre de grandeur, c'est pourquoi cette choix a été fait, un choix de compromis.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
#STT# Critique du nouveau modèle vocal publié par OpenAI
OpenAI a lancé deux nouveaux modèles STT (speech-to-text) et un modèle TTS (text-to-speech).
J'ai fait une simple expérience avec le modèle TTS, j'ai l'impression que l'IA est encore très présente, surtout la prononciation du TTS en chinois, qui est rigide, peu fluide et présente même des erreurs de prononciation évidentes.
Dans le domaine de la TTS en chinois, je pense que la TTS de Byte et d'Azure peut être commercialisée, tandis que celle d'OpenAI n'est pas encore au point. Cela doit probablement être lié à la quantité de données d'entraînement.
Je n'ai pas encore testé le STT en chinois, mais d'après le graphique de comparaison de performances fourni par OpenAI, le scribe-v1 a surpassé OpenAI.
LLM
Les inconvénients de la séparation :
- Les trois sont séparés, ce qui rend le volume de travail énorme d'un point de vue applicatif, et la chaîne d'appels globale est complexe, rendant difficile d'assurer une latence fluide.
- STT -\u003e LLMCette étape va inévitablement entraîner une perte d'informations (ton, intonation, émotions, etc.), et ces informations sont plus importantes dans la communication humaine (imaginez ce que signifie le ton lorsque votre petite amie vous dit "je déteste").
On estime que la quantité d'entraînement et de calcul des grands modèles fusionnés n'est pas du même ordre de grandeur, c'est pourquoi cette choix a été fait, un choix de compromis.