العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
منصة الإطلاق
كن من الأوائل في الانضمام إلى مشروع التوكن الكبير القادم
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
مايكروسوفت تفتح مصدر عائلة الذكاء الاصطناعي المتقدمة للصوت VibeVoice: معالجة واحدة تدوم 90 دقيقة من محادثة متعددة المتحدثين، وGitHub يحصل بسرعة على 27 ألف نجمة
null
أصدرت مايكروسوفت مؤخرًا عائلة نماذج الذكاء الاصطناعي الصوتي المتقدمة المسماة VibeVoice، والتي تشمل العديد من القدرات مثل التعرف التلقائي على الصوت (ASR) وتحويل النص إلى كلام (TTS). جذب هذا المشروع الانتباه بسرعة في مجتمع المطورين بفضل قدرته القوية على معالجة الصوتيات الطويلة، وتوليد محادثات طبيعية متعددة المتحدثين، وخصائصه ذات الكمون المنخفض في الوقت الفعلي، وقد حصل حتى الآن على حوالي 27 ألف نجمة على GitHub.
كإطار بحث مفتوح المصدر، يستخدم VibeVoice ترخيص MIT، ويدعم النشر المحلي دون الحاجة إلى رسوم اشتراك سحابية، ويهدف إلى تعزيز التعاون والابتكار في مجال تركيب الصوت. تتضمن عائلة النماذج ثلاثة أعضاء رئيسيين، لكل منها تركيز خاص، وتعمل معًا على حل نقاط الألم التي تواجه الذكاء الاصطناعي التقليدي في معالجة التسلسلات الطويلة، واتساق المتحدثين، والطبيعية والسلاسة.
VibeVoice-ASR-7B: أداة تحويل الصوت إلى نص تمتد لمدة 60 دقيقة
VibeVoice-ASR-7B هو نموذج موحد لتحويل الصوت إلى نص، قادر على معالجة ملفات صوتية تصل مدتها إلى 60 دقيقة في مرة واحدة، وإخراج نتائج تحويل هيكلية مباشرة. لا تشمل المخرجات فقط “من يتحدث” (تحديد المتحدثين) و"متى يتحدث" (طوابع زمنية دقيقة)، بل تشمل أيضًا “ماذا قال” (محتوى تفصيلي)، وتدعم خاصية الكلمات المفتاحية المخصصة، مما يمكن أن يحسن دقة التعرف على الأسماء الخاصة أو المصطلحات التقنية. يدعم هذا النموذج أكثر من 50 لغة، مما يجعله مناسبًا لتدوين الاجتماعات الطويلة، وتدوين البودكاست، وغيرها من السيناريوهات المعقدة.
قام مطورو المجتمع بتطوير أدوات عملية استنادًا إلى هذا النموذج، مثل أداة الإدخال الصوتي المسماة Vibing، التي تدعم منصات macOS وWindows. تظهر تعليقات المستخدمين أن سرعة ودقة التعرف جيدة، مما يمكن أن يعزز بشكل كبير كفاءة الإدخال الصوتي اليومي.
VibeVoice-TTS-1.5B: توليد صوتي غني ومتعدد المتحدثين لمدة 90 دقيقة
VibeVoice-TTS-1.5B هو النموذج الأساسي الذي يركز على تحويل النص إلى صوت، قادر على إنتاج صوتيات مستمرة تصل مدتها إلى 90 دقيقة في مرة واحدة، ويدعم ما يصل إلى 4 متحدثين مختلفين لمحاكاة المحادثات الطبيعية. الصوت الناتج عن النموذج غني بالتعبير، ويبدو طبيعيًا وسلسًا، قادرًا على محاكاة التوقفات الحقيقية، والتأكيدات، وتقلبات العواطف، مما يجعله مثاليًا لإنتاج البودكاست، والسرد الصوتي الطويل، والكتب الصوتية، أو محتوى المحادثات متعددة الشخصيات.
بالمقارنة مع العديد من نماذج TTS التقليدية التي تدعم 1-2 متحدثين فقط، حقق VibeVoice-TTS تقدمًا ملحوظًا في الأشكال الطويلة، واتساق المتحدثين المتعددين. يعتمد في الأساس على مكونين لصياغة الصوت المستمر (فاصل صوتي وسمعي) جنبًا إلى جنب مع تصميم معدل الإطار المنخفض (7.5Hz)، مما يعزز بشكل كبير كفاءة المعالجة للتسلسلات الطويلة.
VibeVoice-Realtime-0.5B: TTS في الوقت الفعلي مع تأخير تقريبًا 300 مللي ثانية
VibeVoice-Realtime-0.5B يركز على السيناريوهات في الوقت الفعلي، ويدعم الإدخال النصي المتدفق، مع تأخير في إخراج الصوت الأول يبلغ حوالي 300 مللي ثانية، كما يمكن أن ينتج صوتًا طويلاً يصل إلى حوالي 10 دقائق. هذا النموذج مناسب بشكل خاص للتطبيقات التفاعلية التي تتطلب استجابة فورية، مثل المساعدات الصوتية في الوقت الفعلي أو مشاهد الترجمة المباشرة.
بالإضافة إلى ذلك، قدم المشروع دعمًا تجريبيًا للمتحدثين، بما في ذلك الصوتيات متعددة اللغات ونسخ متنوعة من اللغة الإنجليزية، مما يوفر مساحة أكبر للتخصيص للمطورين.
تعليق AIbase: إن المصدر المفتوح لـ VibeVoice من مايكروسوفت لا يقلل فقط من عتبة استخدام الذكاء الاصطناعي الصوتي عالي الأداء، بل يوفر أيضًا حلًا كاملاً للنشر المحلي. تم سحب المشروع لفترة قصيرة بسبب مخاطر الاستخدام المحتمل، ثم أعيد إطلاقه بفضل إدخال علامات مائية صوتية، وإقرارات مسموعة وغيرها من آليات الأمان، مما يعكس مبادئ تطوير الذكاء الاصطناعي المسؤول. حاليًا، يمكن للمطورين الحصول على أوزان النماذج من مستودع GitHub وHugging Face، وتجربتها بسرعة عبر منصات مثل Colab.
مع استمرار مساهمات المجتمع المفتوح (مثل تحسينات Apple Silicon)، من المتوقع أن يسرع VibeVoice في مجالات إنشاء المحتوى، وأدوات الوصول، والتفاعل الصوتي. يمكن للمطورين المهتمين زيارة صفحة المشروع الرسمية لمايكروسوفت لاستكشاف المزيد.
رابط المشروع: