xAI تفتح واجهة برمجة تطبيقات صوتية لـ Grok STT و TTS، مع تقليل معدل الخطأ الكلي في التعرف على الكلام إلى 6.9%

robot
إنشاء الملخص قيد التقدم
أخبار ME، في 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، أطلقت xAI واجهتين برمجيتين مستقلتين لواجهة الصوت: Grok Speech to Text و Grok Text to Speech. كلاهما يأتي من نفس بنية الصوت التي تدعم Grok Voice، ونظام السيارات الخاص بشركة تسلا، وخدمة عملاء Starlink، وتم فتحهما الآن كواجهات مستقلة، بحيث يمكن للمطورين الوصول مباشرة إلى وكلاء الصوت، والتحويل الفوري للنصوص، وأدوات الوصول، والبودكاست، وغيرها من التطبيقات. يوفر STT وضعين. واجهة برمجة التطبيقات REST مخصصة لتحويل ملفات صوتية كبيرة دفعة واحدة بسرعة مللي ثانية؛ وواجهة WebSocket موجهة للبث الصوتي في الوقت الحقيقي. تشمل القدرات المرفقة علامات زمنية على مستوى الكلمات، وفصل المتحدثين (diarization)، والتعرف على قنوات متعددة بشكل منفصل، بالإضافة إلى التحويل العكسي للنص، وهو تحويل الأرقام والتواريخ والعملات الموجودة في الكلام إلى نص منسق ومعتمد. يدعم أكثر من 25 لغة، ويمكن التبديل بينها بسلاسة أثناء الحوار. كما أعلنت xAI عن مجموعة من مقاييس نسبة الأخطاء في الكلمات (WER، حيث تكون القيمة أقل أفضل): في السيناريوهات العامة، كانت نسب الخطأ لـ Grok 6.9%، وElevenLabs 9.0%، وDeepgram 11.0%، وAssemblyAI 12.9%; أما في التعرف على الكيانات في المكالمات الهاتفية، فكانت الفجوة أكبر، حيث كانت نسبة Grok 5.0%، مقابل 12.0%، 13.5%، و21.3% للشركات الثلاث على التوالي. في سيناريوهات الاجتماعات والبودكاست والمكالمات الهاتفية، كانت Grok تتفوق بشكل طفيف أيضًا. تم نشر هذه الأرقام من قبل اختبار ذاتي من قبل xAI، ولم يتم التحقق منها من قبل طرف ثالث بعد. من ناحية التسعير، فإن معالجة دفعات STT تكلف 0.10 دولار أمريكي للساعة، والبث المباشر 0.20 دولار للساعة؛ وTTS تكلف 4.20 دولار لكل مليون حرف. يدعم TTS التحكم في العاطفة والإيقاع باستخدام علامات Speech Tags المدمجة، مثل \[laugh\]\، \[sigh\]\، \[whisper\]\، وغيرها. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
SushiAndSlugs
· منذ 15 س
توضيح تفصيلي لعلامات المشاعر المدمجة، هل يمكن جعل الذكاء الاصطناعي يستخدم نبرة "قراءة مملة" بنبرة ساخرة ومتحاملة
شاهد النسخة الأصليةرد0
FragilePosition
· منذ 15 س
طابع زمني على مستوى الكلمات + فصل المتحدثين، فرحة تحرير البودكاست
شاهد النسخة الأصليةرد0
MempoolSparrow
· منذ 15 س
تدفق WebSocket في الوقت الحقيقي 0.2 دولار/ساعة، هل هو أرخص أم أغلى من Whisper؟
شاهد النسخة الأصليةرد0
GateUser-b6d80ba0
· منذ 15 س
خدمة عملاء ستارلينك أصبحت تستخدم الآن، لا عجب أن شعرت في المرة الأخيرة عند الاتصال بهم أن الطرف الآخر يشبه الذكاء الاصطناعي
شاهد النسخة الأصليةرد0
AirdropMileCounter
· منذ 15 س
تغطية بأكثر من 25 لغة، كيف هو الأداء باللغة الصينية، هل قام أحد بالاختبار؟
شاهد النسخة الأصليةرد0
ReflectiveChainShadow
· منذ 15 س
نفس تكديس الصوت يربط بين جهاز السيارة + الأقمار الصناعية + الدردشة، نظام بيئي xAI هذا لديه شيء ما
شاهد النسخة الأصليةرد0
MintAfterCoffee
· منذ 15 س
ما هو التوحيد العكسي للنصوص، هل يمكن للخبير أن يشرح ذلك بالتفصيل؟
شاهد النسخة الأصليةرد0
  • مُثبت