xAI تقدم واجهات برمجة تطبيقات تحويل الصوت إلى نص والنص إلى صوت من خلال Grok

robot
إنشاء الملخص قيد التقدم
أخبار ME News، في 18 أبريل (بتوقيت UTC+8)، أعلنت xAI مؤخرًا عن إطلاق واجهتي برمجة التطبيقات الصوتية المستقلة Grok Speech-to-Text (STT) و Grok Text-to-Speech (TTS). تقدم خدمة Grok STT خدمات نسخ عالية الدقة ومنخفضة التأخير، وتدعم معالجة دفعات عبر واجهة برمجة التطبيقات REST وبث مباشر عبر WebSocket، وتتميز بوجود علامات زمنية على مستوى الكلمات، وفصل المتحدثين، ودعم الصوت متعدد القنوات، ووظيفة تنظيم النص الذكي. وأشارت المقالة إلى أن أدائها في اختبارات المعايير في مجالات المكالمات الهاتفية، والاجتماعات، والفيديو/البودكاست يتفوق على نماذج تجارية رئيسية مثل ElevenLabs و Deepgram و AssemblyAI. تدعم الخدمة أكثر من 25 لغة، وتبلغ أسعارها 0.10 دولار للساعة لمعالجة الدفعات و0.20 دولار للساعة للبث المباشر. أما خدمة Grok TTS فهي قادرة على إنتاج أصوات سريعة وطبيعية ومعبرة، وتدعم التحكم الدقيق عبر علامات صوتية بسيطة، وتبلغ أسعارها 4.20 دولار لكل مليون حرف. كلا الواجهتين مبنيتان على نفس التقنية التي تدعم Grok Voice، وسيارات تسلا، ودعم عملاء Starlink. (المصدر: InFoQ)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 5
  • 1
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
GateUser-99725296
· منذ 3 س
هل يمكن لهذا السعر أن ينجح، لنرى كيف ستتصدى Azure و AWS لذلك
شاهد النسخة الأصليةرد0
0xLateBreakfast
· منذ 3 س
السعر مضاعف للدفعة والجريان، ويجب على الأعمال أن تحسب حساباتها جيدًا
شاهد النسخة الأصليةرد0
RiskOffRina
· منذ 3 س
دعم الصوت المتعدد ضروري جدًا لنصوص الاجتماعات، وأخيرًا لم أعد بحاجة لمطابقتها بنفسي
شاهد النسخة الأصليةرد0
WalletHealthInspector
· منذ 3 س
Grok Voice يستخدم هذين الواجهتين البرمجيتين، أخيرًا تم فصلهما
شاهد النسخة الأصليةرد0
MosaicBowtieRealm
· منذ 3 س
ما هي المعلمات التي يمكن التحكم فيها بشكل دقيق بواسطة علامات التحكم، هل هي سرعة الصوت، النغمة أم المشاعر؟
شاهد النسخة الأصليةرد0
  • مُثبت