مايكروسوفت تفتح مصدر عائلة الذكاء الاصطناعي المتقدمة للصوت VibeVoice: معالجة واحدة تدوم 90 دقيقة من محادثة متعددة المتحدثين، وGitHub يحصل بسرعة على 27 ألف نجمة

MarsBitNews · 2026-03-30T07:24:07+00:00

أطلقت شركة مايكروسوفت نموذج الذكاء الاصطناعي الصوتي مفتوح المصدر VibeVoice، الذي يدعم التعرف التلقائي على الكلام وتحويل النص إلى كلام، ويتميز بمعالجة الصوت الطويل وتوليد الحوار مع عدة متحدثين. يهدف هذا المشروع إلى دفع الابتكار في مجال توليف الصوت، ويدعم النموذج النشر المحلي دون الحاجة إلى تكاليف السحابة. يشمل VibeVoice ثلاثة نماذج أساسية، موجهة لتحويل الصوت الطويل إلى نص، وتوليد أصوات متعددة المتحدثين، والتوليف الصوتي في الوقت الحقيقي، مما يعزز أداء الذكاء الاصطناعي الصوتي التقليدي.

MarsBitNews

2026-03-30 07:24:07

إنشاء الملخص قيد التقدم

null

أصدرت مايكروسوفت مؤخرًا عائلة نماذج الذكاء الاصطناعي الصوتي المتقدمة المسماة VibeVoice، والتي تشمل العديد من القدرات مثل التعرف التلقائي على الصوت (ASR) وتحويل النص إلى كلام (TTS). جذب هذا المشروع الانتباه بسرعة في مجتمع المطورين بفضل قدرته القوية على معالجة الصوتيات الطويلة، وتوليد محادثات طبيعية متعددة المتحدثين، وخصائصه ذات الكمون المنخفض في الوقت الفعلي، وقد حصل حتى الآن على حوالي 27 ألف نجمة على GitHub.

كإطار بحث مفتوح المصدر، يستخدم VibeVoice ترخيص MIT، ويدعم النشر المحلي دون الحاجة إلى رسوم اشتراك سحابية، ويهدف إلى تعزيز التعاون والابتكار في مجال تركيب الصوت. تتضمن عائلة النماذج ثلاثة أعضاء رئيسيين، لكل منها تركيز خاص، وتعمل معًا على حل نقاط الألم التي تواجه الذكاء الاصطناعي التقليدي في معالجة التسلسلات الطويلة، واتساق المتحدثين، والطبيعية والسلاسة.

VibeVoice-ASR-7B: أداة تحويل الصوت إلى نص تمتد لمدة 60 دقيقة

VibeVoice-ASR-7B هو نموذج موحد لتحويل الصوت إلى نص، قادر على معالجة ملفات صوتية تصل مدتها إلى 60 دقيقة في مرة واحدة، وإخراج نتائج تحويل هيكلية مباشرة. لا تشمل المخرجات فقط “من يتحدث” (تحديد المتحدثين) و"متى يتحدث" (طوابع زمنية دقيقة)، بل تشمل أيضًا “ماذا قال” (محتوى تفصيلي)، وتدعم خاصية الكلمات المفتاحية المخصصة، مما يمكن أن يحسن دقة التعرف على الأسماء الخاصة أو المصطلحات التقنية. يدعم هذا النموذج أكثر من 50 لغة، مما يجعله مناسبًا لتدوين الاجتماعات الطويلة، وتدوين البودكاست، وغيرها من السيناريوهات المعقدة.

قام مطورو المجتمع بتطوير أدوات عملية استنادًا إلى هذا النموذج، مثل أداة الإدخال الصوتي المسماة Vibing، التي تدعم منصات macOS وWindows. تظهر تعليقات المستخدمين أن سرعة ودقة التعرف جيدة، مما يمكن أن يعزز بشكل كبير كفاءة الإدخال الصوتي اليومي.

VibeVoice-TTS-1.5B: توليد صوتي غني ومتعدد المتحدثين لمدة 90 دقيقة

VibeVoice-TTS-1.5B هو النموذج الأساسي الذي يركز على تحويل النص إلى صوت، قادر على إنتاج صوتيات مستمرة تصل مدتها إلى 90 دقيقة في مرة واحدة، ويدعم ما يصل إلى 4 متحدثين مختلفين لمحاكاة المحادثات الطبيعية. الصوت الناتج عن النموذج غني بالتعبير، ويبدو طبيعيًا وسلسًا، قادرًا على محاكاة التوقفات الحقيقية، والتأكيدات، وتقلبات العواطف، مما يجعله مثاليًا لإنتاج البودكاست، والسرد الصوتي الطويل، والكتب الصوتية، أو محتوى المحادثات متعددة الشخصيات.

بالمقارنة مع العديد من نماذج TTS التقليدية التي تدعم 1-2 متحدثين فقط، حقق VibeVoice-TTS تقدمًا ملحوظًا في الأشكال الطويلة، واتساق المتحدثين المتعددين. يعتمد في الأساس على مكونين لصياغة الصوت المستمر (فاصل صوتي وسمعي) جنبًا إلى جنب مع تصميم معدل الإطار المنخفض (7.5Hz)، مما يعزز بشكل كبير كفاءة المعالجة للتسلسلات الطويلة.

VibeVoice-Realtime-0.5B: TTS في الوقت الفعلي مع تأخير تقريبًا 300 مللي ثانية

VibeVoice-Realtime-0.5B يركز على السيناريوهات في الوقت الفعلي، ويدعم الإدخال النصي المتدفق، مع تأخير في إخراج الصوت الأول يبلغ حوالي 300 مللي ثانية، كما يمكن أن ينتج صوتًا طويلاً يصل إلى حوالي 10 دقائق. هذا النموذج مناسب بشكل خاص للتطبيقات التفاعلية التي تتطلب استجابة فورية، مثل المساعدات الصوتية في الوقت الفعلي أو مشاهد الترجمة المباشرة.

بالإضافة إلى ذلك، قدم المشروع دعمًا تجريبيًا للمتحدثين، بما في ذلك الصوتيات متعددة اللغات ونسخ متنوعة من اللغة الإنجليزية، مما يوفر مساحة أكبر للتخصيص للمطورين.

تعليق AIbase: إن المصدر المفتوح لـ VibeVoice من مايكروسوفت لا يقلل فقط من عتبة استخدام الذكاء الاصطناعي الصوتي عالي الأداء، بل يوفر أيضًا حلًا كاملاً للنشر المحلي. تم سحب المشروع لفترة قصيرة بسبب مخاطر الاستخدام المحتمل، ثم أعيد إطلاقه بفضل إدخال علامات مائية صوتية، وإقرارات مسموعة وغيرها من آليات الأمان، مما يعكس مبادئ تطوير الذكاء الاصطناعي المسؤول. حاليًا، يمكن للمطورين الحصول على أوزان النماذج من مستودع GitHub وHugging Face، وتجربتها بسرعة عبر منصات مثل Colab.

مع استمرار مساهمات المجتمع المفتوح (مثل تحسينات Apple Silicon)، من المتوقع أن يسرع VibeVoice في مجالات إنشاء المحتوى، وأدوات الوصول، والتفاعل الصوتي. يمكن للمطورين المهتمين زيارة صفحة المشروع الرسمية لمايكروسوفت لاستكشاف المزيد.

رابط المشروع:

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.