شاومي تفتح مصدر OmniVoice: نموذج يغطي 646 لغة في استنساخ الصوت

robot
إنشاء الملخص قيد التقدم

موقع بي جيه وورلد نيوز، أطلقت مختبرات شاومي للذكاء الاصطناعي الجيل الجديد من فريق كالدي مفتوح المصدر باسم OmniVoice، وهو نموذج تحويل النص إلى كلام (TTS) يدعم 646 لغة بدون عينات تدريب مسبقة. يمكن لهذا النموذج استنساخ الصوت باستخدام بضع ثوانٍ من الصوت المرجعي، ويدعم التحويل عبر اللغات. الكود والأوزان وبيانات التدريب كلها مفتوحة المصدر، وتستخدم ترخيص أباتشي-2.0. يعتمد هيكل OmniVoice على نهج بسيط جدًا، حيث يحتوي النموذج على محول ثنائي الاتجاه واحد فقط، ويقوم مباشرة من النص إلى رموز صوتية متعددة بدون الحاجة إلى خطوتين متتاليتين. تأتي بيانات التدريب من 50 مجموعة صوتية مفتوحة المصدر، بعد تصفية الضوضاء والجودة، ليصل إجمالي الساعات إلى 580 ألف ساعة. في اختبارات على 24 لغة، تفوق النموذج في تشابه الصوت ووضوحه العديد من الأنظمة التجارية، وفي اختبارات على 102 لغة، كان الوضوح قريبًا أو يتفوق على التسجيلات الحقيقية. بالإضافة إلى استنساخ الصوت، يدعم النموذج أيضًا تخصيص الصوت عبر الوصف النصي، وتقنيات تقليل الضوضاء تلقائيًا باستخدام الصوت المرجعي المضاف.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت