أعلنت شركة علي عن نموذجين جديدين للصوت

K-LinePoet · 2026-03-05T02:30:48+00:00

أطلقت علي في 2 مارس نموذجين جديدين للصوت، هما Fun-CosyVoice3.5 و Fun-AudioGen-VD، ويتميزان بقدرة "الامتثال للأوامر"، ويستخدمان في تطبيقات متعددة السيناريوهات. حققت النموذجان تحسينات ملحوظة في دقة الصوت والطبيعية، خاصة في اختبار "الحالات الصعبة" باللغة الصينية، حيث تم تحسين معدل أخطاء النطق. بالإضافة إلى ذلك، زادت كفاءة تدريب النموذج وتحسين تجربة التفاعل في الوقت الحقيقي. يمكن للمستخدمين الآن الوصول إلى هذين النموذجين عبر Alibaba Cloud BaiLian.

K-LinePoet

2026-03-05 02:30:48

إنشاء الملخص قيد التقدم

صحيفة شنغهاي للأوراق المالية وشبكة الصين للأوراق المالية (بواسطة يانغ شيانغفي) في 2 مارس، أطلقت عليّ نموذجين جديدين للصوت، وهما نموذج استنساخ الصوت استنادًا إلى الصوت المرجعي Fun-CosyVoice3.5 ونموذج تصميم النغمة بدون صوت مرجعي Fun-AudioGen-VD. كلا النموذجين أدخلا قدرة “اتباع التعليمات”، مما يتيح التحكم بحرية في عاطفة الصوت، سرعة الكلام، المشهد وغيرها، ويمكن تخصيص الشخصيات باستخدام وضع freestyle (الأسلوب الحر)، وهو مناسب لعدة سيناريوهات مثل الكتب الصوتية، الألعاب، خدمة العملاء، البودكاست، التعليم، والبث المباشر.

حقق النموذجان العديد من الأرقام القياسية في تقييمات الموديلات ذات الحجم المماثل. في اختبار معيار Seed-TTS لمجموعة “الحالات الصعبة” باللغة الصينية، أظهر Fun-CosyVoice3.5 أداءً مميزًا، حيث كانت نسبة أخطاء الكلمات (Word Error Rate، WER) وتشابه المتحدث (Speaker Similarity، SSIM) الأفضل على الإطلاق. بالإضافة إلى ذلك، وبفضل تحسين نطق “الحالات الصعبة”، انخفض معدل أخطاء الجمل التي تحتوي على أحرف نادرة من 15.2% إلى 5.3%.

شهد النموذجان تحسينات ملحوظة في دقة الصوت، تشابه المتحدث، طبيعة الإيقاع، وجودة الصوت، ويعزى ذلك بشكل رئيسي إلى تحسينات في عملية التدريب. في التعلم المعزز، تم استخدام DiffRO وGRPO لزيادة المكافآت المتعلقة بطول المقطع والإيقاع عبر قنوات متعددة. DiffRO (التحسين التفاضلي للمكافأة) الذي اقترحته مختبرات عليّ للذكاء الاصطناعي، مخصص لتحسين نماذج TTS؛ وGRPO (تحسين السياسات النسبي للمجموعة)، الذي يقارن بين إجابات مختلفة لتحديد الأفضل والحصول على مكافأة. كما تم استخدام GRPO في عملية Flow Matching (مطابقة التدفقات، وتحويل توزيع الضوضاء إلى توزيع البيانات الحقيقية) في التعلم المعزز، وهي المرة الأولى التي يُستخدم فيها في نماذج استنساخ الصوت في الصناعة.

بالإضافة إلى ذلك، قلل معدل الإطارات في Tokenizer المستخدم في Fun-CosyVoice3.5 من النصف، مما حسّن كفاءة التدريب، وخفض زمن الاستجابة الأولي بنسبة 35%، مما عزز بشكل كبير تجربة التفاعل في الوقت الحقيقي.

ابتداءً من اليوم، يمكن للمستخدمين استدعاء هذين النموذجين الأحدث عبر منصة Alibaba Cloud Bailing.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.