معدل أخطاء كلمة STT أقل من المنتجات المنافسة، وTTS يمكنه أيضًا ضبط النغمة باستخدام العلامات، نفس مجموعة التقنيات تُستخدم مع Grok Voice، وتيسلا، وسبيس إكس — ماسك يهدف إلى فهم كامل لسلسلة التفاعل الصوتي من البداية إلى النهاية.

شاهد النسخة الأصلية
MeNews
xAI تقدم واجهات برمجة تطبيقات تحويل الصوت إلى نص والنص إلى صوت من خلال Grok
أفادت تقارير أخبار ME أن xAI أطلقت رسميًا واجهتي برمجة تطبيقات صوتية مستقلة هما Grok STT و Grok TTS. يتميز Grok STT بدقة عالية، وتأخير منخفض، ويدعم المعالجة الجماعية عبر REST، والنسخ الحي عبر WebSocket، مع علامات زمنية على مستوى الكلمات، وفصل المتحدثين، ومتعدد القنوات، والتطبيع الذكي للنص العكسي، ويغطي أكثر من 25 لغة؛ السعر للجملة 0.10 دولار أمريكي للساعة، والبث المباشر 0.20 دولار أمريكي للساعة، ومعدل الخطأ في الكلمات أدنى من العديد من المنافسين. يوفر Grok TTS صوتًا سريعًا وطبيعيًا وقابلًا للتحكم الدقيق عبر العلامات، بسعر 4.20 دولارات لكل مليون حرف. كلاهما مبني على نفس تقنية الأساس، ويستخدم من قبل Grok Voice، وتيسلا، وStarlink.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت