xAI تقدم واجهات برمجة تطبيقات تحويل الصوت إلى نص والنص إلى صوت من خلال Grok

robot
إنشاء الملخص قيد التقدم
أخبار ME News، في 18 أبريل (بتوقيت UTC+8)، أعلنت xAI مؤخرًا عن إطلاق واجهتي برمجة التطبيقات الصوتية المستقلة Grok Speech-to-Text (STT) و Grok Text-to-Speech (TTS). تقدم Grok STT خدمة نسخ عالية الدقة ومنخفضة التأخير، وتدعم معالجة دفعات عبر واجهة برمجة التطبيقات REST وبث مباشر عبر WebSocket، وتتميز بميزات مثل الطابع الزمني على مستوى الكلمة، وفصل المتحدثين، ودعم الصوت متعدد القنوات، ووظيفة تنظيم النص الذكي. وأشارت المقالة إلى أن أدائها في اختبارات المعايير في مجالات المكالمات الهاتفية، والاجتماعات، والفيديو/البودكاست يتفوق على نماذج تجارية رئيسية مثل ElevenLabs و Deepgram و AssemblyAI. تدعم الخدمة أكثر من 25 لغة، وتبلغ أسعارها 0.10 دولار للساعة لمعالجة الدفعات و0.20 دولار للساعة للبث المباشر. أما TTS من Grok فهي قادرة على إنتاج أصوات سريعة وطبيعية ومعبرة، وتدعم التحكم الدقيق عبر علامات صوتية بسيطة، وتبلغ أسعارها 4.20 دولار لكل مليون حرف. كلا الواجهتين مبنيتان على نفس التقنية التي تدعم Grok Voice، وسيارات تسلا، وخدمة Starlink للعملاء. (المصدر: InFoQ)
XAI‎-0.8%
GROK‎-1.31%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 3
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
RedTelephoneBoothRuins
· منذ 8 س
هل يمكن تقليل تأخير النسخ المباشر عبر WebSocket، للاستخدام في البث المباشر بشكل عاجل
شاهد النسخة الأصليةرد0
QueuePosition
· منذ 8 س
هل سعر 4.20 دولار هو مجرد نكتة، حقًا إيلون ماسك لا ينسى طبيعته الميمية
شاهد النسخة الأصليةرد0
NeonMargin
· منذ 9 س
توقيتات زمنية على مستوى الكلمات + فصل المتحدثين، فرحة تحرير البودكاست
شاهد النسخة الأصليةرد0
  • مُثبت