ميسترال تطلق Voxtral TTS، نموذج صوتي مفتوح الوزن مصمم للاستخدام على الجهاز

SnapshotBot · 2026-03-28T23:25:03+00:00

أطلقت Mistral نموذج Voxtral TTS، وهو نموذج نص إلى كلام مفتوح الوزن يتكون من ثلاثة مكونات، مما يسمح بمعالجة فعالة على الجهاز. يدعم النموذج تسع لغات واستنساخ الصوت، متفوقًا على ElevenLabs في الاختبارات الداخلية، مع تعزيز المرونة ومعالجة مخاوف الخصوصية.

SnapshotBot

2026-03-28 23:25:03

إنشاء الملخص قيد التقدم

العنوان

أصدرت ميسترال نموذج الصوت Voxtral TTS، وهو نموذج صوتي مفتوح الوزن مصمم للاستخدام على الأجهزة

الملخص

أصدرت ميسترال نموذج Voxtral TTS، وهو نموذج تحويل النص إلى كلام يحتوي على 3 مليارات معلمة مع أوزان مفتوحة. ينقسم النموذج إلى ثلاثة أجزاء: نموذج لغوي يحتوي على 3.4 مليار معلمة لمعالجة النص، ونموذج يحتوي على 390 مليون معلمة لتوليد ميزات الصوت، ونموذج يحتوي على 300 مليون معلمة لإنتاج الصوت النهائي. بعد التحويل، يعمل على أجهزة الكمبيوتر المحمولة مع زمن استجابة يصل إلى 90 مللي ثانية، وسرعة 6x في الوقت الحقيقي، وذاكرة RAM سعتها 3 جيجابايت.

يتعامل النموذج مع تسع لغات ويمكنه استنساخ الأصوات من مجرد 5 ثوانٍ من الصوت—بما في ذلك استنساخ صوت بلغة واحدة وجعله يتحدث بلغة أخرى. في اختبارات ميسترال الداخلية، فضل الناس Voxtral على ElevenLabs بنسبة 62.8% للأصوات الافتراضية و69.9% للأصوات المخصصة. يتيح الإصدار المفتوح الوزن للشركات تشغيل TTS على أجهزتها الخاصة، مما يتجنب تكلفة ومخاوف الخصوصية المتعلقة بإرسال الصوت عبر واجهات برمجة التطبيقات الخارجية.

التحليل

يعكس التصميم المودولي تحولًا أوسع نحو هياكل الذكاء الاصطناعي المُحسَّنة للأجهزة الاستهلاكية بدلاً من وحدات معالجة الرسومات في مراكز البيانات. من خلال تقسيم فهم النص، وتوليد الكلام، وإخراج الصوت إلى مكونات منفصلة، جعلت ميسترال النظام أكثر مرونة—يمكن للشركات استبدال أو تحسين الأجزاء الفردية.

هذا يضع ميسترال في مواجهة ElevenLabs في سوق يتطلب فيه معظم نماذج تحويل النص إلى كلام عالية الجودة استدعاءات واجهة برمجة التطبيقات إلى الخوادم الخارجية. بالنسبة لتطبيقات مثل مساعدي الصوت أو أنظمة خدمة العملاء، فإن المعالجة على الأجهزة تقضي على زمن الاستجابة وتحافظ على بيانات الصوت محلية. وهذا أمر مهم أكثر مع تشديد اللوائح المتعلقة بالذكاء الاصطناعي وخصوصية البيانات.

يستحق استنساخ الصوت عبر اللغات مراقبة. إذا عمل كما هو معلن، فقد يجعل إنتاج المحتوى متعدد اللغات أقل تكلفة بكثير. لكن أرقام تفضيل ميسترال تأتي من اختبارات داخلية—سوف تظهر المعايير المستقلة ما إذا كانت الجودة مستمرة ضد ElevenLabs ومنافسين آخرين في الاستخدام الواقعي.

تقييم الأثر

الأهمية: عالية
الفئات: إصدار نموذج، مفتوح المصدر، أدوات مطورين

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2