تم دمج مجموعة أدوات Grok الصوتية بالكامل في API، وكانت أنظمة سيارات تسلا وخدمة عملاء Starlink تستخدمها منذ فترة، وبيانات الاختبار الذاتي لـ WER جيدة لكن انتظروا إعادة الاختبار من طرف ثالث.

شاهد النسخة الأصلية
MeNews
xAI تفتح واجهة برمجة تطبيقات صوتية لـ Grok STT و TTS، مع تقليل معدل الخطأ الكلي في التعرف على الكلام إلى 6.9%
تقرير أخبار ME: أطلقت xAI واجهتي برمجة تطبيقات صوتية مستقلة: Grok STT و Grok TTS، المستندة إلى نفس منصة الصوت، وتدعم Grok Voice، ونظام Tesla المدمج، وخدمة عملاء Starlink وغيرها. يوفر STT تحويل دفعات عبر REST وتدفق مباشر عبر WebSocket، مع علامات زمنية على مستوى الكلمات، وفصل المتحدثين، ومتعدد القنوات، ومعايرة النص العكسي، ويغطي أكثر من 25 لغة؛ يدعم TTS العلامات الداخلية للمشاعر والإيقاع. كما أعلن عن مقارنة معدل الخطأ (WER)، حيث تتفوق Grok في سيناريوهات متعددة، ولم يتم إعادة الاختبار من قبل طرف ثالث بعد. السعر: المعالجة الدفعية لـ STT 0.10 دولار أمريكي للساعة، والبث المباشر 0.20 دولار أمريكي للساعة، وTTS 4.20 دولار لكل مليون حرف.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت