فريق Kaldi في مختبر Xiaomi AI يطلق مشروع OmniVoice مفتوح المصدر، الذي يدعم نسخ الصوت بدون عينات مسبقة بـ646 لغة، ويمكنه استنساخ الصوت خلال بضع ثوانٍ باستخدام مقطع صوتي مرجعي وتحويله عبر اللغات. الشفرة والأوزان وبيانات التدريب كلها مفتوحة المصدر (Apache-2.0). يستخدم OmniVoice محول ثنائي الاتجاه فقط، ويقوم مباشرة بتحويل النص إلى رموز صوتية متعددة، دون الحاجة إلى خط أنابيب من مرحلتين. تأتي بيانات التدريب من 50 مجموعة بيانات مفتوحة المصدر، بعد تصفية الضوضاء، ليصل إجمالي الساعات إلى 580,000 ساعة. في اختبارات بـ24 لغة، تفوقت جودة الصوت ووضوحه على العديد من الأنظمة التجارية، وفي 102 لغة، اقترب مستوى الوضوح أو تفوق على التسجيلات الحقيقية. كما يدعم تخصيص الصوت عبر الوصف النصي، وتقليل الضوضاء تلقائيًا عند وجود صوت مرجعي ملوث.

CoinNetwork

2026-05-07 10:29:33

إنشاء الملخص قيد التقدم

موقع بي جيه وورلد نيوز، أطلقت مختبرات شاومي للذكاء الاصطناعي الجيل الجديد من فريق كالدي مفتوح المصدر باسم OmniVoice، وهو نموذج تحويل النص إلى كلام (TTS) يدعم 646 لغة بدون عينات تدريب مسبقة. يمكن لهذا النموذج استنساخ الصوت باستخدام بضع ثوانٍ من الصوت المرجعي، ويدعم التحويل عبر اللغات. الكود والأوزان وبيانات التدريب كلها مفتوحة المصدر، وتستخدم ترخيص أباتشي-2.0. يعتمد هيكل OmniVoice على نهج بسيط جدًا، حيث يحتوي النموذج على محول ثنائي الاتجاه واحد فقط، ويقوم مباشرة من النص إلى رموز صوتية متعددة بدون الحاجة إلى خطوتين متتاليتين. تأتي بيانات التدريب من 50 مجموعة صوتية مفتوحة المصدر، بعد تصفية الضوضاء والجودة، ليصل إجمالي الساعات إلى 580 ألف ساعة. في اختبارات على 24 لغة، تفوق النموذج في تشابه الصوت ووضوحه العديد من الأنظمة التجارية، وفي اختبارات على 102 لغة، كان الوضوح قريبًا أو يتفوق على التسجيلات الحقيقية. بالإضافة إلى استنساخ الصوت، يدعم النموذج أيضًا تخصيص الصوت عبر الوصف النصي، وتقنيات تقليل الضوضاء تلقائيًا باستخدام الصوت المرجعي المضاف.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
575.3K درجة الشعبية
#
BTCPullback
106.32M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
43.84K درجة الشعبية
#
CLARITYActStalled
3.28M درجة الشعبية
#
CryptoStocksRally
1.42M درجة الشعبية

تثبيت

خريطة الموقع

شاومي تفتح مصدر OmniVoice: نموذج يغطي 646 لغة في استنساخ الصوت

المواضيع الرائجة

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

تثبيت