تقرير أخبار ME: أطلقت xAI اثنين من واجهات برمجة التطبيقات الصوتية المستقلة: Grok STT و Grok TTS، المستمدين من نفس منصة الصوت، ويدعمان Grok Voice، ونظام Tesla المدمج، وخدمة عملاء Starlink وغيرها. يوفر STT تحويل دفعات عبر REST وتدفق مباشر عبر WebSocket، مع علامات زمنية على مستوى الكلمات، وفصل المتحدث، وقنوات متعددة، وتطبيع النص العكسي، ويغطي أكثر من 25 لغة؛ يدعم TTS العلامات الداخلية للمشاعر والإيقاع. كما أعلن عن مقارنة معدل الخطأ (WER)، حيث يتفوق Grok في سيناريوهات متعددة، ولم يتم إعادة الاختبار من قبل طرف ثالث بعد. التسعير: المعالجة الدفعية لـ STT 0.10 دولار أمريكي للساعة، والبث المباشر 0.20 دولار أمريكي للساعة، وTTS بسعر 4.20 دولار لكل مليون حرف.

MeNews

2026-05-26 13:41:03

إنشاء الملخص قيد التقدم

أخبار ME، في 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، أطلقت xAI واجهتين برمجيتين مستقلتين لواجهة الصوت: Grok Speech to Text و Grok Text to Speech. كلاهما يأتي من نفس منصة الصوت التي تدعم Grok Voice، ونظام السيارات الخاص بشركة تسلا، وخدمة عملاء Starlink، وتم فتحهما الآن كواجهات مستقلة، بحيث يمكن للمطورين الوصول مباشرة إلى وكلاء الصوت، والتحويل الفوري للنصوص، وأدوات الوصول، والبودكاست، وغيرها من التطبيقات. يوفر STT وضعين. واجهة برمجة التطبيقات REST مخصصة لتحويل ملفات صوتية كبيرة دفعة واحدة بسرعة مللي ثانية؛ وواجهة WebSocket موجهة للبث الصوتي في الوقت الحقيقي. تشمل القدرات المرفقة علامات زمنية على مستوى الكلمات، وفصل المتحدثين (diarization)، والتعرف على قنوات متعددة بشكل منفصل، بالإضافة إلى التحويل العكسي للنص، وهو تحويل الأرقام والتواريخ والعملات الموجودة في الكلام إلى نص منسق ومعتمد. يدعم أكثر من 25 لغة، ويمكن التبديل بينها بسلاسة أثناء الحوار. كما أعلنت xAI عن مجموعة من مقاييس نسبة الأخطاء في الكلمات (WER، حيث تكون القيمة أقل أفضل): في السيناريوهات العامة، كانت نسبة Grok 6.9%، وElevenLabs 9.0%، وDeepgram 11.0%، وAssemblyAI 12.9%; أما في التعرف على الكيانات في المكالمات الهاتفية، فكانت الفجوة أكبر، حيث كانت نسبة Grok 5.0%، مقابل 12.0%، و13.5%، و21.3% للشركات الثلاث على التوالي. وفي سيناريوهات الاجتماعات والبودكاست والفواتير الهاتفية، كانت Grok تتفوق بشكل طفيف. تم نشر هذه الأرقام من قبل xAI بعد اختبار داخلي، ولم يتم التحقق منها من قبل طرف ثالث بعد. من ناحية التسعير، فإن معالجة دفعات STT تكلف 0.10 دولار أمريكي للساعة، والبث المباشر 0.20 دولار للساعة؛ وTTS تكلف 4.20 دولار لكل مليون حرف. يدعم TTS التحكم في العاطفة والإيقاع باستخدام علامات Speech Tags المدمجة، مثل \[laugh\]\، \[sigh\]\، \[whisper\]\، وغيرها. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 10

أعجبني
10
10
3
مشاركة

تعليق

إضافة تعليق

InstantNoodle-LevelResearcher

· منذ 4 س

التحويل الجماعي باستخدام REST، والوقت الحقيقي باستخدام WebSocket، تصميم الهيكلية عملي جدًا

شاهد النسخة الأصليةرد0

GateUser-f85bc167

· منذ 4 س

انتظر فقط نتائج أداء حقيقية، فقط شاهد مقياس الأداء الخاص بـ xAI

شاهد النسخة الأصليةرد0

MarginMom

· منذ 4 س

يدعم Grok TTS علامات المشاعر بشكل مثير للاهتمام، هل يمكن أن يصاحب الصوت الاصطناعي بكاءً في المستقبل؟

شاهد النسخة الأصليةرد0

GateUser-f92ba9fa

· منذ 4 س

25+ لغة مغطاة، كيف هو الأداء باللغة الصينية هل قام أحد باختباره؟

شاهد النسخة الأصليةرد0

Lightning-FastComposure

· منذ 4 س

ما هو تقنية التوحيد العكسي للنصوص، هل يمكن للخبير أن يشرحها بالتفصيل؟

شاهد النسخة الأصليةرد0

HaiyanColdWallet

· منذ 4 س

طابع زمني على مستوى الكلمات + فصل المتحدثين، سجل الاجتماع يفرح جدًا

شاهد النسخة الأصليةرد0

QuantsAndCats

· منذ 5 س

هل تكلف تقنية تحويل النص إلى كلام (TTS) التي تبلغ 4.2 دولارات لكل مليون حرف أرخص أم أغلى من ElevenLabs؟

شاهد النسخة الأصليةرد0

AmberTeaSwirl

· منذ 5 س

نظام تحويل الكلام إلى نص التدفق 0.2 دولار/ساعة، من المفترض أن يعمل بشكل جيد في سيناريو الترجمة الفورية

شاهد النسخة الأصليةرد0

MultisigOnRocks

· منذ 5 س

نفس تكديس الصوت يُغذى على Grok Voice و Tesla و Starlink، إيكولوجيا ماسك مغلقة الدائرة.

شاهد النسخة الأصليةرد0

BalanceScreenshotAfterTheRain

· منذ 5 س

واجهت واجهة برمجة التطبيقات الصوتية لـ xAI بشكل مفاجئ، هل يعتبر سعر STT البالغ 0.1 دولار/ساعة معقولًا؟

شاهد النسخة الأصليةرد0

عرض المزيد

المواضيع الرائجة
عرض المزيد
#
StockTradingChallengeUpTo17000U
16.21M درجة الشعبية
#
USStrikesIran
9.31M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
49.45K درجة الشعبية
#
GatePredictionMarketAddsSmartMoneyTracking
13.06M درجة الشعبية
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M درجة الشعبية

مُثبت

خريطة الموقع

xAI تفتح واجهة برمجة تطبيقات صوتية لـ Grok STT و TTS، مع تقليل معدل الخطأ الكلي في التعرف على الكلام إلى 6.9%

المواضيع الرائجة

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

مُثبت