تطلق xAI واجهات برمجة تطبيقات كلام غروك بتكلفة أقل بنسبة 60% من المنافسين

زاك أندرسون

18 أبريل 2026 00:53

إيلون ماسك’s xAI يطلق واجهات برمجة التطبيقات لنص الكلام ونص النصوص بسعر 0.10 دولار/ساعة، مدعياً أدنى معدلات خطأ عبر معايير النسخ المؤسسية.

إيلون ماسك’s xAI أطلق واجهتين صوتيتين مستقلتين في 17 أبريل، موضحًا تكنولوجيا الكلام الخاصة بـ Grok كمنافس مباشر لـ ElevenLabs و Deepgram و AssemblyAI بأسعار تنافسية.

تعمل واجهة Grok للكلام إلى نص بسعر 0.10 دولار للساعة للمعالجة الجماعية و0.20 دولار للساعة للبث المباشر. أما النص إلى كلام فبسعر 4.20 دولارات لكل مليون حرف. كلاهما يستفيد من نفس البنية التحتية التي تدعم سيارات تسلا ودعم عملاء ستارلينك.

ادعاءات المعايير التي تستحق التدقيق

معدلات خطأ الكلمات المنشورة من قبل xAI تحكي قصة مثيرة. في التعرف على الكيانات عبر المكالمات الهاتفية—مثل الأسماء، أرقام الحسابات، التواريخ—تدعي Grok STT معدل خطأ بنسبة 5.0% مقابل 12.0% لـ ElevenLabs، و13.5% لـ Deepgram، و21.3% لـ AssemblyAI. هذا فارق كبير إذا ثبت صحته في الإنتاج.

أظهرت الشركة ذلك من خلال اختبار صعب: نسخ أسماء ويلزية مثل “أنغارد ليويلن بوين” و “أوشين ماكجيلا فادريك” بجانب تفاصيل الرهن العقاري. أبدعت Grok في ذلك بدون أخطاء. أما النماذج المنافسة فتعثرت في النطق وتنسيق التواريخ بشكل غير متسق.

نسخ الفيديو والبودكاست يظهر منافسة أقرب—Grok و ElevenLabs متعادلان عند معدل خطأ 2.4%، مع تأخر Deepgram و AssemblyAI قليلاً عند 3.0% و3.2% على التوالي.

الميزات التقنية للمطورين

إلى جانب النسخ الخام، بنى xAI ميزات يحتاجها عملاء المؤسسات فعلاً: طوابع زمنية على مستوى الكلمة، تمييز المتحدث عبر قنوات صوتية متعددة، ودعم لأكثر من 25 لغة مع تبديل سلس.

ميزة التNormalization العكسي للنص تحول الأرقام المنطوقة والتواريخ والعملات إلى تنسيقات صحيحة تلقائيًا. “أربعة واحد أربعة خمسة خمسة خمسة واحد اثنين ثلاثة أربعة” تصبح رقم هاتف. “ستة تسعة وتسعون” تصبح 6.99 دولارات. تفصيل صغير، لكنه يزيل متاعب المعالجة اللاحقة.

نص إلى كلام يتضمن علامات مدمجة للتحكم في البروصودي—همسات، ضحكات، تنهدات، تأكيد، وتعديلات في الإيقاع. يمكن للمطورين إدخال نغمة عاطفية دون الحاجة لمواجهة تعقيدات ترميز الصوت.

السياق الاستراتيجي

يأتي هذا الإطلاق بعد استحواذ xAI على شركة X في مارس 2025، ويأتي مع توسع الشركة في شراكات البنية التحتية. قبل يومين فقط من إعلان الواجهة، ظهرت تقارير تفيد أن xAI تخطط لتوفير قوة حوسبة لـ Cursor، شركة البرمجة المدعومة بالذكاء الاصطناعي.

الحاسوب العملاق Colossus، الذي يعمل منذ ديسمبر 2024، يوفر القوة الخلفية. يبدو أن xAI تستفيد من تلك القدرة عبر قطاعات متعددة—الذكاء الاصطناعي للمؤسسات، أدوات المطورين، والآن واجهات برمجة تطبيقات الصوت.

بالنسبة للمطورين الذين يبنون وكلاء صوت أو أدوات نسخ، فإن الأسعار تقل بشكل كبير عن اللاعبين الراسخين. ما إذا كانت ادعاءات دقة Grok ستصمد في الاستخدام الحقيقي على نطاق واسع يبقى السؤال المفتوح. الوثائق والحدود على المعدلات متاحة عبر وحدة تحكم API الخاصة بـ xAI لمن هم مستعدون للاختبار.

مصدر الصورة: Shutterstock

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت