Открытый исходный код TTS наконец-то перешел к потоковой обработке в реальном времени, Higgs Audio v3 — контроль задержки тут действительно хорош, нулевой образец клонирования + эмоциональные метки — очень интересно реализовано

Посмотреть Оригинал
CoinNetwork
Boson AI открытая модель аудио на 4B Higgs Audio v3, поддержка потокового управления эмоциями
Boson AI открытый исходный код Higgs Audio v3 TTS веса, основанные на Qwen3-4B, около 4 миллиардов параметров, оптимизированы для потокового диалога в реальном времени, синтез начинается до завершения текста для снижения задержки. Поддержка более 100 языков/диалектов, снижение ошибки слов и символов до однозначных чисел, поддержка клонирования голоса без образца и внедрение более 20 эмоций и множества управляющих тегов в текст. В рамках реализации LMSYS в SGLang-Omni выполнена сквозная оптимизация, однопоточная реальная скорость на H100 составляет 0.147. Веса опубликованы на Hugging Face под лицензией для некоммерческих исследований.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено