xAI أطلقت واجهة برمجة تطبيقات تحويل الصوت إلى نص والنص إلى صوت من Grok

robot
إنشاء الملخص قيد التقدم

موجز أخبار ME، 18 أبريل (بتوقيت UTC+8)، أعلنت xAI مؤخرًا عن إطلاق واجهتي برمجة تطبيقات صوتية مستقلة هما Grok لتحويل الصوت إلى نص (STT) وGrok لتحويل النص إلى صوت (TTS). توفر خدمة Grok STT دقة عالية وتأخير منخفض في التحويل، وتدعم معالجة دفعات عبر واجهة برمجة التطبيقات REST وبث مباشر عبر WebSocket، وتتميز بميزات مثل الطابع الزمني على مستوى الكلمات، وفصل المتحدثين، ودعم الصوت متعدد القنوات، ووظيفة تنظيم النص الذكي. وأشارت المقالة إلى أن أدائها في اختبارات المعايير في مجالات المكالمات الهاتفية، والاجتماعات، والفيديو/البودكاست يتفوق على نماذج تجارية رئيسية مثل ElevenLabs وDeepgram وAssemblyAI. تدعم الخدمة أكثر من 25 لغة، وتبلغ أسعارها 0.10 دولار للساعة لمعالجة الدفعات و0.20 دولار للساعة للبث المباشر. أما خدمة Grok TTS فهي قادرة على إنتاج أصوات سريعة وطبيعية ومعبرة، وتدعم التحكم الدقيق عبر علامات صوتية بسيطة، وتبلغ أسعارها 4.20 دولار لكل مليون حرف. تعتمد كلتا الواجهتين على نفس التقنية التي تدعم Grok Voice، وسيارات تسلا، وخدمة دعم عملاء Starlink. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت