شاومي تفتح مصدر OmniVoice: نموذج يغطّي 646 لغة في استنساخ الصوت، تدريب بيانات مفتوحة المصدر يفوز على أنظمة تجارية

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة الضربات Beating، قام فريق Xiaomi AI Lab بإطلاق OmniVoice، وهو نموذج نص-إلى-صوت (TTS) يدعم 646 لغة، ويُعد الجيل الجديد من فريق Kaldi مفتوح المصدر. يمكنه استنساخ الصوت باستخدام بضع ثوانٍ من الصوت المرجعي، ويعمل عبر اللغات: أعطِه تسجيلًا صوتيًا باللغة الصينية، ويمكنه التحدث بنفس الصوت باللغة اليابانية أو الكورية أو لغات أخرى. الكود والأوزان وبيانات التدريب كلها مفتوحة المصدر، برخصة Apache-2.0.

من حيث الهيكل، يتبع OmniVoice نهج البساطة المطلقة. النموذج يتكون من محول ثنائي الاتجاه واحد، ويقوم مباشرة بتحويل النص إلى رموز صوتية مشفرة بشكل متعدد (ترميز صوتي منفصل)، دون الحاجة إلى خطوتين متتاليتين لتحويل الرموز الدلالية ثم الرموز الصوتية. يدعمان تصميمان رئيسيان هذا الهيكل البسيط: استراتيجية إخفاء عشوائية للرموز المشفرة تعزز كفاءة التدريب، واستخدام معلمات ما قبل التدريب لنموذج لغة كبير لتحسين دقة النطق. سرعة الاستنتاج 40 مرة أسرع من الوقت الحقيقي، ويعمل مباشرة على PyTorch دون الحاجة إلى تحسينات إضافية.

جميع بيانات التدريب من 50 مجموعة بيانات صوتية مفتوحة المصدر، بعد تصفية الضوضاء والجودة، تصل إلى 580 ألف ساعة. لضمان أداء جيد لللغات ذات الموارد المنخفضة، يتم استخدام تقنية الزيادة الديناميكية للعينات. في اختبارات 24 لغة، تفوق صوت OmniVoice في التشابه الصوتي والوضوح على العديد من الأنظمة التجارية. وفي اختبارات 102 لغة، يقترب أو يتفوق على التسجيلات الحقيقية من حيث الوضوح. حتى اللغات ذات الموارد أقل من 10 ساعات يمكنها توليف الصوت منها.

بالإضافة إلى استنساخ الصوت، يدعم النموذج تخصيص الصوت عبر وصف نصي (مثل “ذكر، متوسط العمر، نغمة منخفضة جدًا” أو “أنثى، شابة، لهجة سيتشوان”)، وتقليل الضوضاء تلقائيًا باستخدام الصوت المرجعي، وإدراج رموز التعبير مثل الضحك والتنهد، وتصحيح نطق الأحرف الصينية متعددة النطق والأسماء الخاصة باللغة الإنجليزية والصينية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت