xAI lance l'API de transcription vocale et de synthèse vocale Grok

robot
Création du résumé en cours
ME News Actualités, le 18 avril (UTC+8), xAI a récemment annoncé le lancement officiel de deux API audio indépendantes : Grok Speech-to-Text (STT) et Grok Text-to-Speech (TTS).
Grok STT offre un service de transcription à haute précision et à faible latence, prenant en charge le traitement en lot via API REST et la transcription en flux en temps réel via API WebSocket, avec des fonctionnalités telles que les horodatages au niveau des mots, la séparation des locuteurs, la prise en charge du son multicanal et la normalisation intelligente du texte inversé.
Il est mentionné dans l'article qu'il affiche de meilleurs taux d'erreur de mots dans des tests de référence dans plusieurs domaines tels que les appels téléphoniques, les réunions, la vidéo/podcasts, surpassant des modèles commerciaux grand public comme ElevenLabs, Deepgram et AssemblyAI.
Ce service supporte plus de 25 langues, avec un tarif de 0,10 USD par heure pour le traitement en lot et 0,20 USD par heure pour le traitement en flux.
Grok TTS peut générer une voix rapide, naturelle et expressive, avec un contrôle granulé via des balises vocales simples, au prix de 4,20 USD pour 1 million de caractères.
Les deux API sont basées sur la même pile technologique qui alimente Grok Voice, les véhicules Tesla et le support client Starlink.
(Source : InFoQ)
XAI-1,62%
GROK-2,99%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 7
  • 3
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
RiskParachute
· Il y a 8h
Attendez, TTS peut-il contrôler la granularité via des balises ? Alors, l'émotion et le ton peuvent-ils aussi être ajustés ?
Voir l'originalRépondre0
BitByBitBenny
· Il y a 9h
Horodatage au niveau des mots + séparation des locuteurs, un outil génial pour les comptes rendus de réunion, je veux essayer
Voir l'originalRépondre0
FrictionlessFred
· Il y a 9h
Grok Voice, Tesla, Starlink utilisent une même pile technologique, Musk a compris cette boucle écologique.
Voir l'originalRépondre0
GoldfishUnderTheIce
· Il y a 9h
Qu'est-ce que la normalisation inversée du texte, cette technologie de pointe qui transforme le langage parlé en texte standard ?
Voir l'originalRépondre0
Don'tMessWithSlippage.
· Il y a 9h
Couverture en 25 langues, quelqu’un a-t-il testé la qualité en chinois ?
Voir l'originalRépondre0
YieldBonsai
· Il y a 9h
4,20 dollars / million de caractères, ce chiffre est-il intentionnel ?
Voir l'originalRépondre0
IOnlyTrustOn-ChainData.
· Il y a 9h
xAI, cette tarification de l'API audio est assez agressive, 0,1 dollar par heure en volume, on dirait qu'elle va faire s'effondrer pas mal de fournisseurs de reconnaissance vocale (ASR).
Voir l'originalRépondre0