xAI أطلقت واجهة برمجة تطبيقات تحويل الصوت إلى نص وتحويل النص إلى صوت Grok

robot
إنشاء الملخص قيد التقدم

موجز أخبار ME، في 18 أبريل (بتوقيت UTC+8)، أعلنت xAI مؤخرًا عن إطلاق واجهتي برمجة تطبيقات صوتية مستقلة هما Grok لتحويل الصوت إلى نص (STT) وGrok لتحويل النص إلى صوت (TTS). توفر خدمة Grok STT دقة عالية وتأخير منخفض في التحويل، وتدعم معالجة دفعات عبر واجهة برمجة التطبيقات REST وبث مباشر عبر WebSocket، وتتميز بميزات مثل الطابع الزمني على مستوى الكلمات، وفصل المتحدثين، ودعم الصوت متعدد القنوات، ووظيفة التوحيد الذكي للنصوص. وأشارت المقالة إلى أن أدائها في اختبارات المعايير في مجالات المكالمات الهاتفية، والاجتماعات، والفيديو/البودكاست يتفوق على نماذج تجارية رئيسية مثل ElevenLabs وDeepgram وAssemblyAI. تدعم الخدمة أكثر من 25 لغة، ويبلغ سعرها 0.10 دولار للساعة عند المعالجة بكميات كبيرة، و0.20 دولار للساعة عند البث المباشر. أما TTS من Grok فهي قادرة على إنتاج أصوات سريعة وطبيعية ومعبرة، وتدعم التحكم الدقيق عبر علامات صوتية بسيطة، ويبلغ سعرها 4.20 دولار لكل مليون حرف. تعتمد كلتا الواجهتين على نفس تقنية البنية التحتية التي تدعم Grok Voice، وسيارات تسلا، وخدمة Starlink للعملاء. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت