توقيت الكلمات وفصل المتحدثين في Grok STT ضروريان لتحرير البودكاست، لكن بيانات WER تتحدث عن نفسها، وننتظر إعادة اختبار من طرف ثالث.

GROK‎-8.72%
STT0.3%
شاهد النسخة الأصلية
MeNews
xAI تفتح واجهة برمجة تطبيقات صوتية لـ Grok STT و TTS، مع تقليل معدل الخطأ الكلي في التعرف على الكلام إلى 6.9%
تقرير أخبار ME: أطلقت xAI اثنين من واجهات برمجة التطبيقات الصوتية المستقلة: Grok STT و Grok TTS، المستمدين من نفس منصة الصوت، ويدعمان Grok Voice، ونظام Tesla المدمج، وخدمة عملاء Starlink وغيرها. يوفر STT تحويل دفعات عبر REST وتدفق مباشر عبر WebSocket، مع علامات زمنية على مستوى الكلمات، وفصل المتحدث، وقنوات متعددة، وتطبيع النص العكسي، ويغطي أكثر من 25 لغة؛ يدعم TTS العلامات الداخلية للمشاعر والإيقاع. كما أعلن عن مقارنة معدل الخطأ (WER)، حيث يتفوق Grok في سيناريوهات متعددة، ولم يتم إعادة الاختبار من قبل طرف ثالث بعد. التسعير: المعالجة الدفعية لـ STT 0.10 دولار أمريكي للساعة، والبث المباشر 0.20 دولار أمريكي للساعة، وTTS بسعر 4.20 دولار لكل مليون حرف.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 1
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
GateUser-dd0c6b87
· منذ 15 س
ليس الأمر نفسه على الإطلاق، لا تخدع الناس
شاهد النسخة الأصليةرد0
  • مُثبت