Відкритий код TTS нарешті перейшов до потокової обробки в реальному часі, Higgs Audio v3 — контроль затримки тут досить цікавий, нульовий зразок клонування + емоційні теги — досить круто граються

Переглянути оригінал
CoinNetwork
Boson AI відкриває вихідний код 4B аудіомоделі Higgs Audio v3, підтримує потокове емоційне керування
Boson AI відкритий код Higgs Audio v3 TTS ваги, на основі Qwen3-4B, приблизно 4 мільярди параметрів, оптимізовані для реального часу потокового діалогу, починають синтез до завершення тексту для зменшення затримки. Підтримує понад 100 мов/діалектів, рівень помилок у словах знижено до однозначних чисел, підтримує клонування голосу без зразків та може вбудовувати понад 20 емоцій та багатокласових контрольних тегів у текст. Спільно з LMSYS реалізовано сквозне оптимізування у фреймворку SGLang-Omni, один одночасний реальний час на H100 становить 0.147. Ваги вже опубліковані на Hugging Face, з використанням ліцензії для некомерційних досліджень.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено