مختبر شاومي للذكاء الاصطناعي يطلق مصدرًا مفتوحًا لنظام OmniVoice، وهو نظام نسخ صوتي بدون عينات ل646 لغة. يستخدم محول ثنائي الاتجاه فقط لتحويل النص إلى رموز صوتية متقطعة، بدون الحاجة إلى خط أنابيب من مرحلتين. الجوهر هو إخفاء عشوائي كامل للقاموس الرمزي واستخدام معلمات النموذج الكبير المدربة مسبقًا، مما يسرع الاستنتاج بمقدار 40 مرة، ويمكن تشغيله باستخدام PyTorch فقط. تم التدريب على 50 مجموعة بيانات مفتوحة المصدر، لمدة 580 ألف ساعة، مع استخدام تقنية الرفع للغات ذات الموارد المنخفضة. الاختبار في 24 لغة يتفوق على العديد من الأنظمة التجارية، وفي 102 لغة يقارب التسجيل الحقيقي؛ كما يمكن تخصيص الصوت باستخدام الوصف النصي، وتقليل الضوضاء تلقائيًا، وإضافة رموز عاطفية وتصحيح الأسماء الخاصة.

BlockBeatNews

2026-05-07 10:35:45

إنشاء الملخص قيد التقدم

وفقًا لمراقبة الضربات Beating، قام فريق Xiaomi AI Lab بإطلاق OmniVoice، وهو نموذج نص-إلى-صوت (TTS) يدعم 646 لغة، ويُعد الجيل الجديد من فريق Kaldi مفتوح المصدر. يمكنه استنساخ الصوت باستخدام بضع ثوانٍ من الصوت المرجعي، ويعمل عبر اللغات: أعطِه تسجيلًا صوتيًا باللغة الصينية، ويمكنه التحدث بنفس الصوت باللغة اليابانية أو الكورية أو لغات أخرى. الكود والأوزان وبيانات التدريب كلها مفتوحة المصدر، برخصة Apache-2.0.

من حيث الهيكل، يتبع OmniVoice نهج البساطة المطلقة. النموذج يتكون من محول ثنائي الاتجاه واحد، ويقوم مباشرة بتحويل النص إلى رموز صوتية مشفرة بشكل متعدد (ترميز صوتي منفصل)، دون الحاجة إلى خطوتين متتاليتين لتحويل الرموز الدلالية ثم الرموز الصوتية. يدعمان تصميمان رئيسيان هذا الهيكل البسيط: استراتيجية إخفاء عشوائية للرموز المشفرة تعزز كفاءة التدريب، واستخدام معلمات ما قبل التدريب لنموذج لغة كبير لتحسين دقة النطق. سرعة الاستنتاج 40 مرة أسرع من الوقت الحقيقي، ويعمل مباشرة على PyTorch دون الحاجة إلى تحسينات إضافية.

جميع بيانات التدريب من 50 مجموعة بيانات صوتية مفتوحة المصدر، بعد تصفية الضوضاء والجودة، تصل إلى 580 ألف ساعة. لضمان أداء جيد لللغات ذات الموارد المنخفضة، يتم استخدام تقنية الزيادة الديناميكية للعينات. في اختبارات 24 لغة، تفوق صوت OmniVoice في التشابه الصوتي والوضوح على العديد من الأنظمة التجارية. وفي اختبارات 102 لغة، يقترب أو يتفوق على التسجيلات الحقيقية من حيث الوضوح. حتى اللغات ذات الموارد أقل من 10 ساعات يمكنها توليف الصوت منها.

بالإضافة إلى استنساخ الصوت، يدعم النموذج تخصيص الصوت عبر وصف نصي (مثل “ذكر، متوسط العمر، نغمة منخفضة جدًا” أو “أنثى، شابة، لهجة سيتشوان”)، وتقليل الضوضاء تلقائيًا باستخدام الصوت المرجعي، وإدراج رموز التعبير مثل الضحك والتنهد، وتصحيح نطق الأحرف الصينية متعددة النطق والأسماء الخاصة باللغة الإنجليزية والصينية.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
575.3K درجة الشعبية
#
BTCPullback
106.32M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
43.84K درجة الشعبية
#
CLARITYActStalled
3.28M درجة الشعبية
#
CryptoStocksRally
1.42M درجة الشعبية

تثبيت

خريطة الموقع

شاومي تفتح مصدر OmniVoice: نموذج يغطّي 646 لغة في استنساخ الصوت، تدريب بيانات مفتوحة المصدر يفوز على أنظمة تجارية

المواضيع الرائجة

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

تثبيت