أخبار ME، 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أطلقت xAI واجهتين برمجيتين مستقلتين لواجهة الصوت: Grok Speech to Text و Grok Text to Speech. كلاهما ينتمي إلى نفس منصة الصوت التي تدعم Grok Voice، ونظام السيارات الخاص بشركة تسلا، وخدمة عملاء Starlink، وتم فتحهما الآن بشكل نقاط نهاية مستقلة، بحيث يمكن للمطورين الوصول مباشرة إلى وكلاء الصوت، والتحويل الفوري للنصوص، وأدوات الوصول، والبودكاست، وغيرها من التطبيقات. يوفر STT وضعين. واجهة برمجة التطبيقات REST مخصصة لتحويل ملفات صوتية كبيرة دفعة واحدة، مع استجابة في غضون ميلي ثانية؛ وواجهة برمجة التطبيقات WebSocket

MeNews

2026-05-26 22:30:54

أخبار ME، في 18 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، أطلقت xAI واجهتي برمجة تطبيقات صوتية مستقلة: Grok Speech to Text و Grok Text to Speech. كلاهما يأتي من نفس بنية الصوت التي تدعم Grok Voice، ونظام Tesla المدمج، وخدمة Starlink، وتم فتحهما كواجهات مستقلة، بحيث يمكن للمطورين الوصول مباشرة إلى وكلاء الصوت، والتحويل الفوري للنصوص، وأدوات الوصول، والبودكاست، وغيرها من التطبيقات. يوفر STT وضعين. واجهة برمجة التطبيقات REST مخصصة لتحويل ملفات صوتية كبيرة دفعة واحدة بسرعة مللي ثانية؛ وواجهة WebSocket موجهة للبث الصوتي في الوقت الحقيقي. تشمل القدرات المصاحبة علامات زمنية على مستوى الكلمات، وفصل المتحدثين (diarization)، والتعرف على قنوات متعددة بشكل منفصل، بالإضافة إلى التحويل العكسي للنص، وهو تحويل الأرقام والتواريخ والعملات الموجودة في الكلام إلى نص منسق ومعتمد. يدعم أكثر من 25 لغة، ويمكن التبديل بينها بسلاسة أثناء الحوار. كما أعلنت xAI عن مجموعة من مقاييس نسبة الأخطاء في الكلام (WER، حيث تكون القيمة أقل أفضل): في السيناريوهات العامة، كانت نسب Grok 6.9%، وElevenLabs 9.0%، وDeepgram 11.0%، وAssemblyAI 12.9%; أما في التعرف على الكيانات في المكالمات الهاتفية، فكانت الفجوة أكبر، حيث كانت نسب Grok 5.0%، مقابل 12.0%، و13.5%، و21.3% للثلاثة الأخرى على التوالي. وفي سيناريوهات الاجتماعات والبودكاست والمكالمات الهاتفية، كانت Grok تتفوق بشكل طفيف. تم نشر هذه الأرقام من قبل xAI بعد اختبار داخلي، ولم يتم التحقق منها من قبل طرف ثالث بعد. من ناحية التسعير، يبلغ سعر معالجة دفعة من STT 0.10 دولار للساعة، و0.20 دولار للساعة للبث المباشر؛ وTTS بسعر 4.20 دولار لكل مليون حرف. يدعم TTS التحكم في المشاعر والإيقاع باستخدام علامات Speech Tags المدمجة، مثل \[laugh\]\، \[sigh\]\، \[whisper\]\، وغيرها. (المصدر: BlockBeats)

XAI2.33%

GROK6.54%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 7

أعجبني
7
9
إعادة النشر
مشاركة

تعليق

إضافة تعليق

MosaicButterfly

· منذ 10 س

نقطة النهاية المستقلة أكثر مرونة بكثير من ربطها في دردشة Grok

شاهد النسخة الأصليةرد0

FloatingMirrorSphere

· منذ 11 س

انتظر تسعيرًا، لا تكن مرة أخرى نبلاء API

شاهد النسخة الأصليةرد0

BudgetValidator

· منذ 15 س

بدأت بنية الصوت التحتية في التوحيد القياسي، مما يفيد المطورين الصغار والمتوسطين

شاهد النسخة الأصليةرد0

MirrorBallGazingAtTheSky

· منذ 17 س

نفس مجموعة التقنية تدعم ثلاثة سيناريوهات، وماسك يلعب بإعادة الاستخدام بشكل رائع

شاهد النسخة الأصليةرد0

AirdropSidequest

· منذ 18 س

WebSocket مناسب للبث المباشر، وREST مناسب للأرشفة، تصميم معقول

شاهد النسخة الأصليةرد0

CandlewickKid

· منذ 22 س

xAI أخيرًا قام بفصل مكدس الصوت، مطورو البرمجيات يفرحون بشدة

شاهد النسخة الأصليةرد0

RetroRadioSignal

· منذ 22 س

نظام STT الخاص بـ Grok يدعم وضعين من خلال REST + WebSocket، مع مراعاة كل من المعالجة الجماعية واللحظية، الأمر دقيق جدًا

شاهد النسخة الأصليةرد0

PatinaTradingBell

· منذ 22 س

الطقم الصوتي الذي تستخدمه كل من تسلا وStarlink يجب أن يكون قد خضع لاختبارات الاعتمادية

شاهد النسخة الأصليةرد0

OracleBabysitter

· منذ 22 س

أدوات الوصول +1، هذا هو الحرارة التي يجب أن تتسم بها التقنية

شاهد النسخة الأصليةرد0

عرض المزيد

المواضيع الرائجة
عرض المزيد
#
StockTradingChallengeUpTo17000U
16.02M درجة الشعبية
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
831.68K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
49.78K درجة الشعبية
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M درجة الشعبية
#
MicronMarketCapBreaks1Trillion
44.72K درجة الشعبية

مُثبت

خريطة الموقع

xAI تفتح واجهة برمجة تطبيقات Grok لـ STT و TTS الصوتية، مع تقليل معدل الخطأ الكلي في التعرف على الكلمات إلى 6.9%

المواضيع الرائجة

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

مُثبت