xAI تفتح واجهة برمجة تطبيقات صوتية لـ Grok STT و TTS، مع تقليل معدل الخطأ الكلي في التعرف على الكلام إلى 6.9%

robot
إنشاء الملخص قيد التقدم
موجز أخبار ME، 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أطلقت xAI واجهتين برمجيتين مستقلتين لواجهة برمجة التطبيقات الصوتية: Grok Speech to Text و Grok Text to Speech. كلاهما يأتي من نفس منصة الصوت التي تدعم Grok Voice، ونظام السيارات الخاص بشركة تسلا، وخدمة عملاء Starlink، وتم فتحهما الآن كواجهات مستقلة، بحيث يمكن للمطورين الوصول مباشرة إلى وكلاء الصوت، والتحويل الفوري للنصوص، وأدوات الوصول، والبودكاست، وغيرها من التطبيقات. يوفر STT وضعين. واجهة برمجة التطبيقات REST مخصصة لتحويل ملفات صوتية كبيرة دفعة واحدة بسرعة مللي ثانية؛ وواجهة WebSocket موجهة للبث الصوتي في الوقت الحقيقي. تشمل القدرات المرفقة علامات زمنية على مستوى الكلمات، وفصل المتحدثين (diarization)، والتعرف على قنوات متعددة بشكل منفصل، بالإضافة إلى التحويل العكسي للنص، وهو تحويل الأرقام والتواريخ والعملات في الكلام إلى نص منسق ومعتمد. يدعم أكثر من 25 لغة، ويمكن التبديل بينها بسلاسة أثناء الحوار. كما أعلنت xAI عن مجموعة من مقاييس نسبة الأخطاء في الكلمات (WER، حيث تكون القيمة أقل أفضل) للمقارنة: في السيناريوهات العامة، كانت نسبة Grok 6.9%، وElevenLabs 9.0%، وDeepgram 11.0%، وAssemblyAI 12.9%; أما في التعرف على الكيانات في المكالمات الهاتفية، فكانت الفجوة أكبر، حيث كانت نسبة Grok 5.0%، مقابل 12.0%، 13.5%، و21.3% للشركات الثلاث على التوالي. في سيناريوهات الاجتماعات والبودكاست والفواتير الهاتفية، كانت Grok تتفوق بشكل طفيف. تم نشر هذه الأرقام من قبل اختبار ذاتي من قبل xAI، ولم يتم التحقق منها من قبل طرف ثالث بعد. من ناحية التسعير، فإن معالجة الصوت دفعة واحدة تكلف 0.10 دولار أمريكي للساعة، والبث المباشر 0.20 دولار للساعة؛ وTTS تكلف 4.20 دولار لكل مليون حرف. يدعم TTS التحكم في العاطفة والإيقاع باستخدام علامات Speech Tags المدمجة، مثل \[laugh\]\، \[sigh\]\، \[whisper\]\، وغيرها. (المصدر: BlockBeats)
XAI‎-1.74%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 6
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
SudoSatoshi
· منذ 3 س
تغطية متعددة اللغات بأكثر من 25 لغة، لكن كيف جودة اللغات الصغيرة؟ متوسط معدل الخطأ يبدو جيدًا، لكن اللغات ذات التوزيع الطويل قد تظل كارثية.
شاهد النسخة الأصليةرد0
AirdropUnderTheNeonBridge
· منذ 3 س
علامات التداخل العاطفية والإيقاعية؟ أخيرًا لم تعد TTS مجرد آلة لقراءة النصوص، يمكنها الآن إضفاء الحيوية على الكتب الصوتية أو حوارات شخصيات الألعاب.
شاهد النسخة الأصليةرد0
AirdropCartographer
· منذ 3 س
قنوات متعددة + فصل المتحدثين، أداة تحويل تسجيلات الاجتماعات إلى نص، لكن بتكلفة تدفق قدرها 0.2 دولار/ساعة، فإن الاجتماعات الطويلة ليست رخيصة أيضًا.
شاهد النسخة الأصليةرد0
PerpPulse
· منذ 3 س
Grok Voice، نظام الصوت المستخدم في سيارات تسلا، وخدمة عملاء ستارلينك كلها تستخدم نفس مجموعة الصوتيات، وماسك يطور هذا النظام بشكل متقن ويصبح أكثر احترافية.
شاهد النسخة الأصليةرد0
MintLaterMaybe
· منذ 3 س
ما هو توحيد النص المعكوس؟ تحويل الأرقام إلى أرقام عربية؟ هذه الوظيفة مهمة جدًا لمعالجة ما بعد تحويل الصوت إلى نص، لتجنب كتابة التعبيرات النمطية بنفسك.
شاهد النسخة الأصليةرد0
CliffsideAncientPineAndRolling
· منذ 3 س
xAI هذه المجموعة من واجهات برمجة التطبيقات الصوتية تضرب بقوة، حيث يبلغ سعر STT التدفق المباشر 0.2 دولار/ساعة، وTTS 4.2 دولار/مليون حرف، واستراتيجية التسعير واضحة أنها موجهة للاستخدام التجاري على نطاق واسع.
شاهد النسخة الأصليةرد0
  • مُثبت