xAI أطلقت واجهات برمجة التطبيقات لتحويل الصوت إلى نص والنص إلى صوت Grok

robot
إنشاء الملخص قيد التقدم
أخبار ME News، في 18 أبريل (بتوقيت UTC+8)، أعلنت xAI مؤخرًا عن إطلاق واجهتي برمجة تطبيقات صوتية مستقلة هما Grok لتحويل الصوت إلى نص (STT) وGrok لتحويل النص إلى صوت (TTS). تقدم Grok STT خدمة نسخ عالية الدقة ومنخفضة التأخير، وتدعم معالجة دفعات عبر واجهة برمجة التطبيقات REST وبث مباشر عبر WebSocket، وتتميز بوجود علامات زمنية على مستوى الكلمات، وفصل المتحدثين، ودعم الصوت متعدد القنوات، ووظيفة تنظيم النص الذكي. وذكرت المقالة أن أدائها في اختبارات المعايير في مجالات المكالمات الهاتفية، والاجتماعات، والفيديو/البودكاست يتفوق على نماذج تجارية رئيسية مثل ElevenLabs وDeepgram وAssemblyAI. تدعم الخدمة أكثر من 25 لغة، وتبلغ أسعارها 0.10 دولار للساعة لمعالجة الدفعات و0.20 دولار للساعة للبث المباشر. أما TTS من Grok فهي قادرة على إنتاج أصوات سريعة وطبيعية ومعبرة، وتدعم التحكم الدقيق عبر علامات صوتية بسيطة، وتبلغ أسعارها 4.20 دولارات لكل مليون حرف. كلا الواجهتين مبنيتان على نفس التقنية التي تدعم Grok Voice، وسيارات تسلا، وخدمة دعم عملاء Starlink. (المصدر: InFoQ)
XAI‎-2.15%
GROK3.4%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • 3
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
RiskParachute
· منذ 7 س
انتظر، هل يمكن لـ TTS التحكم بدقة باستخدام العلامات؟ هل يمكن ضبط العواطف والنبرة أيضًا؟
شاهد النسخة الأصليةرد0
BitByBitBenny
· منذ 8 س
طابع زمني على مستوى الكلمات وفصل المتحدثين، أداة رائعة لتلخيص الاجتماعات، أريد أن أجربها
شاهد النسخة الأصليةرد0
FrictionlessFred
· منذ 8 س
Grok Voice، تسلا، ستارلينك تستخدم نفس مجموعة التقنيات، إيلون ماسك فهم تمامًا دورة هذا النظام البيئي المغلقة
شاهد النسخة الأصليةرد0
GoldfishUnderTheIce
· منذ 8 س
ما هو تقنية التكنولوجيا السوداء في تطبيع النص المعكوس، وتحويل الكلام العامي إلى نص قياسي؟
شاهد النسخة الأصليةرد0
Don'tMessWithSlippage.
· منذ 8 س
تغطية بـ 25 لغة، كيف كانت فعالية الصينية هل قام أحد بقياسها؟
شاهد النسخة الأصليةرد0
YieldBonsai
· منذ 8 س
4.20 دولار أمريكي/مليون حرف، هل هذا الرقم مقصود بالتأكيد؟
شاهد النسخة الأصليةرد0
IOnlyTrustOn-ChainData.
· منذ 8 س
xAI هذه الموجة من تسعير واجهة برمجة تطبيقات الصوتيات قوية جدًا، 0.1 دولار للساعة بكميات كبيرة، يبدو أنها ستقضي على العديد من مزودي خدمات التعرف التلقائي على الكلام.
شاهد النسخة الأصليةرد0
  • مُثبت