xAI تفتح واجهة برمجة تطبيقات صوتية لـ Grok STT و TTS، مع تقليل معدل الخطأ الكلي في التعرف على الكلام إلى 6.9%

أخبار ME News، في 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أطلقت xAI واجهتي برمجة تطبيقات صوتية مستقلة: Grok Speech to Text و Grok Text to Speech. كلاهما يأتي من نفس بنية الصوت التي تدعم Grok Voice، ونظام السيارات الخاص بشركة تسلا، وخدمة عملاء Starlink، وتم فتحهما الآن كواجهات مستقلة، بحيث يمكن للمطورين الوصول مباشرة إلى وكلاء الصوت، والتحويل الفوري للنصوص، وأدوات الوصول الميسر، والبودكاست، وغيرها من التطبيقات. يوفر STT وضعين. واجهة برمجة التطبيقات REST مخصصة لتحويل ملفات صوتية كبيرة دفعة واحدة بسرعة مللي ثانية؛ وواجهة WebSocket موجهة للبث الصوتي في الوقت الحقيقي. تشمل القدرات المرفقة علامات زمنية على مستوى الكلمات، وفصل المتحدثين (diarization)، والتعرف على قنوات متعددة بشكل منفصل، بالإضافة إلى عكس تحويل النص، وهو تحويل الأرقام والتواريخ والعملات الموجودة في الكلام إلى نص منسق ومعتمد. يدعم أكثر من 25 لغة، ويمكن التبديل بينها بسلاسة أثناء الحوار. كما أعلنت xAI عن مجموعة من مقاييس نسبة الخطأ في الكلمات (WER، حيث تكون القيمة أقل أفضل): في السيناريوهات العامة، كانت نسبة Grok 6.9%، وElevenLabs 9.0%، وDeepgram 11.0%، وAssemblyAI 12.9%; أما في التعرف على كيانات المكالمات الهاتفية، فكانت الفجوة أكبر، حيث كانت نسبة Grok 5.0%، مقابل 12.0%، و13.5%، و21.3% للشركات الثلاث على التوالي. وفي سيناريوهات الاجتماعات والبودكاست والفواتير الهاتفية، كانت Grok تتفوق بشكل طفيف. تم نشر هذه الأرقام من قبل xAI بعد اختبار داخلي، ولم يتم التحقق منها من قبل طرف ثالث بعد. من ناحية التسعير، فإن معالجة دفعات STT تكلف 0.10 دولار أمريكي للساعة، والبث المباشر 0.20 دولار للساعة؛ وTTS تكلف 4.20 دولار لكل مليون حرف. يدعم TTS التحكم في العاطفة والإيقاع باستخدام علامات Speech Tags المدمجة، مثل \[laugh\]\، \[sigh\]\، \[whisper\]\، وغيرها. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 5
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
Post-RainTvl
· منذ 5 س
يلعب ماسك هذه اللعبة بشكل كبير، وسرعة بناء بنية xAI التحتية أسرع مما كان متوقعًا
شاهد النسخة الأصليةرد0
TacoTreasury
· منذ 8 س
تخطيط قسم الصوت في Grok عميق جدًا، حيث يستخدم كل من خدمة العملاء عبر السيارة والفضاء نفس النظام، لذا يجب أن يكون الاستقرار جيدًا
شاهد النسخة الأصليةرد0
GateUser-7cb48814
· منذ 9 س
نصوص مباشرة عبر WebSocket، قابلة للاستخدام مباشرة في سيناريوهات الترجمة الحية والترجمة الفورية
شاهد النسخة الأصليةرد0
TheProphetOfToast
· منذ 9 س
نظام السيارة المدمج في تسلا من نفس المصدر، ومن المحتمل أن يتحد نظام التفاعل الصوتي في السيارة مع النظام البيئي
شاهد النسخة الأصليةرد0
GateUser-e4fb1fbe
· منذ 9 س
نفس مجموعة مكدس الصوت تدعم العديد من السيناريوهات، وإعادة استخدام الهندسة تم بشكل رائع
شاهد النسخة الأصليةرد0
  • مُثبت