Voxtral: نظام تحويل النص إلى كلام مفتوح المصدر يتفوق على ElevenLabs في الاختبارات المجهولة، ويمكن تشغيله على اللابتوب

robot
إنشاء الملخص قيد التقدم

العنوان

Voxtral من Mistral: الفحص الأعمى هزم ElevenLabs، ويمكن تشغيله محليًا.

الملخص

لاحظ روان بول مجموعة من بيانات المقارنة: في اختبار الأصوات متعددة اللغات، اختار المقيمون 70% من الوقت Voxtral الجديدة من Mistral بناءً على ثلاثة معايير: الطبيعية، ودقة اللكنة، والتشابه. 4 مليارات معلمة، استنساخ الصوت في 3 ثوانٍ، يدعم 9 لغات، وتأخير 70 مللي ثانية على اللابتوب. تعني الأوزان مفتوحة المصدر أن الشركات يمكنها التشغيل بنفسها، دون الحاجة للدفع مقابل عدد نداءات API.

النقاط الأساسية

  • نسبة تفضيل 70%: اختبارات أعمى من مقيمين ناطقين أصليين بـ 9 لغات، قياس الطبيعية، دقة اللكنة، ومدى التشابه مع الصوت الأصلي.
  • من تنافس: هزم ElevenLabs Flash v2.5، وتعادل مع v3.
  • الخصائص التقنية: بنية Transformer، تلتقط التفاصيل المتعلقة بالتوقفات والنغمة بشكل أفضل؛ الأوزان مفتوحة المصدر يمكن تشغيلها محليًا، مما يوفر تكاليف API، ويمنع احتكار الموردين.
  • قضية الترخيص: النموذج نفسه قابل للاستخدام التجاري، لكن الصوت المرجعي هو CC BY-NC. ليس من الواضح قانونيًا ما إذا كان يمكن استخدام أصوات الآخرين في المنتجات.

لماذا نقول إن هذه المرة مختلفة

  • التكلفة وحقوق التحكم
    • ElevenLabs: تتقاضى رسوم حسب عدد الأحرف، تستخدم خوادمها وAPI مغلق.
    • Voxtral: تحميل الأوزان وتشغيلها بنفسك، لا رسوم حسب الاستخدام، تحكم كامل في السلسلة.
  • ما يمكن القيام به
    • وكيل صوتي، ترجمة فورية، دبلجة، هذه السيناريوهات تجعل الأوزان مفتوحة المصدر أقل تكلفة في التجربة والتوسع، كما أن الامتثال للخصوصية يصبح أسهل.

مقارنة سريعة

البعد Voxtral ElevenLabs
وصول النموذج أوزان مفتوحة المصدر، يمكن تشغيلها محليًا API مغلق
التأخير حوالي 70 مللي ثانية على اللابتوب يعتمد على السحابة والباقات
اللغات 9 لغات متعددة اللغات (لم يتم تفصيلها في هذه المقالة)
استنساخ الصوت 3 ثوانٍ من الصوت المرجعي مدعوم (لم يتم التوسع في هذه المقالة)
التقييم تفضيل 70% في الاختبار الأعمى Flash v2.5 خسر، v3 مشابه
قيود الاستخدام التجاري الصوت المرجعي CC BY-NC قيود الترخيص والفوترة للمنصة

انظر مدونة Mistral، الوثائق ومستودع Hugging Face لتفاصيل وطرق التقييم.

خلفية الصناعة

هذه الإصدارة تتعلق مرة أخرى بموضوع المصدر المفتوح مقابل المصدر المغلق القديم. تنتقل Mistral من نماذج اللغة إلى الصوت، مع تقدم التخطيط المتعدد الوسائط. تحتاج التطبيقات الصوتية إلى أن تكون مستقرة، قابلة للتحكم، وتكلفتها متوقعة، وقد وجدت الأوزان المفتوحة المصدر + التنفيذ المحلي نقطة توازن بين التكلفة والأداء والامتثال.

المخاطر

  • عدم اليقين في الترخيص: الصوت المرجعي هو CC BY-NC، ولا يزال غير واضح كيف يتم حساب حقوق الطبع والنشر وحقوق الصورة عند استنساخ أصوات الآخرين في المنتجات التجارية.
  • نطاق المقارنة محدود: تم المقارنة فقط مع ElevenLabs، ولم يتم اختبار Coqui أو Bark أو أي TTS مفتوح المصدر آخر.

تقييم التأثير

  • الأهمية: عالية
  • الفئة: إصدار نموذج، مفتوح المصدر، تأثير السوق

الحكم: بالنسبة للفرق التي تحتاج إلى سلسلة صوتية قابلة للتحكم، وتكلفة متوقعة، فإن الوقت الآن للدخول ليس متأخرًا. يتمتع المطورون والمبدعون على مستوى المؤسسات بميزة واضحة؛ بينما لا تتأثر العلاقات التجارية بشكل كبير.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:2
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • تثبيت