xAI, cette tarification de l'API audio est intéressante, le STT en batch seulement 0,1 dollar/heure, alors que le TTS est en fait plus cher à 4,2 dollars/million de caractères, est-ce que cette prime pour la valeur des étiquettes émotionnelles ?

Voir l'original
MeNews
xAI ouvre l'API audio Grok STT et TTS, le taux d'erreur global du STT réduit à 6,9 %
Les nouvelles de ME News rapportent que xAI a lancé deux API audio indépendantes : Grok STT et Grok TTS, issues du même stack audio, supportant Grok Voice, le système embarqué Tesla et le service client Starlink, etc.
STT offre une transcription en lot via REST et un flux en temps réel via WebSocket, avec des horodatages au niveau des mots, séparation des locuteurs, multi-canaux et normalisation inversée du texte, couvrant plus de 25 langues ;
TTS prend en charge les balises intégrées pour l’émotion et la prosodie.
Ils ont également publié une comparaison du taux d’erreur WER, montrant que Grok est en tête dans plusieurs scénarios, mais aucune revalidation par un tiers n’a encore été effectuée.
Tarification : traitement par lot STT 0,10 USD par heure, streaming 0,20 USD par heure, TTS 4,20 USD par million de caractères.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire