نظام تحويل النص إلى كلام مفتوح المصدر أصبح أخيرًا يدعم التدفق المباشر في الوقت الحقيقي، والتحكم في التأخير في Higgs Audio v3 يعتبر شيء مميز، حيث يلعب استنساخ بدون عينات وعلامات المشاعر بشكل ممتع جدًا

شاهد النسخة الأصلية
CoinNetwork
نموذج صوتي مفتوح المصدر من Boson AI بحجم 4 مليار، Higgs Audio v3، يدعم التحكم العاطفي التدفق
مؤشر Boson AI مفتوح المصدر Higgs Audio v3 TTS، يعتمد على Qwen3-4B، حوالي 4 مليارات من المعاملات، محسّن للمحادثات الحية والبث المباشر، يبدأ في التوليف قبل اكتمال النص لتقليل التأخير. يدعم أكثر من 100 لغة/لهجة، ويقل معدل أخطاء الكلمات إلى الأحاد، ويدعم استنساخ الصوت بدون عينات ويمكن دمج أكثر من 20 عاطفة وعلامات تحكم متعددة في النص. بالتعاون مع LMSYS في إطار SGLang-Omni لتحقيق تحسين شامل من النهاية إلى النهاية، معدل الوقت الحقيقي المتزامن الأحادي على H100 هو 0.147. تم نشر الأوزان على Hugging Face، باستخدام ترخيص غير تجاري للأبحاث.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت