2025-03-21 09:55:53

#STT# Краткий обзор новой голосовой модели, выпущенной OpenAI

OpenAI выпустила две новые модели STT (преобразование речи в текст) и одну модель TTS (преобразование текста в речь).
Просто протестировал модель TTS, и у меня сложилось впечатление, что в ней все еще много "AI". Особенно это заметно в произношении китайского TTS: оно жесткое, не плавное и даже с явными ошибками в произношении.
В области TTS на китайском языке кажется, что TTS от Byte и Azure можно использовать в коммерческих целях, а OpenAI пока не очень подходит. Похоже, это связано с объемом обучающих данных.
Китайский STT еще не был протестирован, но судя по сравнительной диаграмме производительности от OpenAI, scribe-v1 обошел OpenAI.
Я думаю, что OpenAI все еще должна работать над мультимодальной унифицированной большой моделью, а не разделять STT > LLM > TTS.
Недостатки разделения:
- Разделение этих трех аспектов создает огромные объемы работ с точки зрения приложения, и общая цепочка вызовов сложна, что затрудняет обеспечение плавности задержек.
LLM Этот этап, безусловно, приведет к потере информации (интонация, тон, эмоции и т.д.), а эта информация более важна в человеческом общении (представьте, что ваша девушка говорит вам "ненавижу", какой тон что означает).
Предполагается, что объем тренировок и вычислений интегрированной модели не сопоставимы, поэтому в настоящее время сделан такой выбор, выбор компромисса.

STT-4.16%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
1
Репост
Поделиться

комментарий

0/400

pi币pi

· 03-21 23:35

快войти в позицию！🚗

Посмотреть ОригиналОтветить0

Тема
#Gate Initial Listing WLFI
24k Популярность
#Will Crypto Market Break Out in September?
33k Популярность
#Are You Bullish or Bearish Today?
28k Популярность
#GUSD Now Live on Gate
44k Популярность
#Gate Alpha XLAB Points Airdrop
4k Популярность

Закрепить

Карта сайта