#STT# Краткий обзор новой голосовой модели, выпущенной OpenAI


OpenAI выпустила две новые модели STT (преобразование речи в текст) и одну модель TTS (преобразование текста в речь).
Просто протестировал модель TTS, и у меня сложилось впечатление, что в ней все еще много "AI". Особенно это заметно в произношении китайского TTS: оно жесткое, не плавное и даже с явными ошибками в произношении.
В области TTS на китайском языке кажется, что TTS от Byte и Azure можно использовать в коммерческих целях, а OpenAI пока не очень подходит. Похоже, это связано с объемом обучающих данных.
Китайский STT еще не был протестирован, но судя по сравнительной диаграмме производительности от OpenAI, scribe-v1 обошел OpenAI.
Я думаю, что OpenAI все еще должна работать над мультимодальной унифицированной большой моделью, а не разделять STT > LLM > TTS.
Недостатки разделения:
- Разделение этих трех аспектов создает огромные объемы работ с точки зрения приложения, и общая цепочка вызовов сложна, что затрудняет обеспечение плавности задержек.
LLM Этот этап, безусловно, приведет к потере информации (интонация, тон, эмоции и т.д.), а эта информация более важна в человеческом общении (представьте, что ваша девушка говорит вам "ненавижу", какой тон что означает).
Предполагается, что объем тренировок и вычислений интегрированной модели не сопоставимы, поэтому в настоящее время сделан такой выбор, выбор компромисса.
STT-4.16%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 1
  • Репост
  • Поделиться
комментарий
0/400
pi币pivip
· 03-21 23:35
快войти в позицию!🚗
Посмотреть ОригиналОтветить0
  • Закрепить