#STT# Comentário sobre o novo modelo de voz lançado pela OpenAI


A OpenAI lançou dois novos modelos de STT (speech-to-text) e um modelo de TTS (text-to-speech).
Experimentei um pouco o modelo TTS e sinto que a IA ainda é muito evidente, especialmente a pronúncia do TTS em chinês, que é rígida, pouco fluida e até apresenta erros de pronúncia claros.
Na área de TTS em chinês, sinto que o TTS da Byte e da Azure são utilizáveis comercialmente, enquanto o da OpenAI ainda não está muito bom. Acredito que isso esteja relacionado com a quantidade de dados de treinamento.
O STT em chinês ainda não foi experimentado, mas a partir do gráfico de comparação de desempenho fornecido pela OpenAI, o scribe-v1 superou o OpenAI.
LLM
Desvantagens da separação:
- Os três separados têm uma grande quantidade de trabalho em termos de aplicação, e a cadeia de chamadas como um todo é complexa, tornando difícil garantir uma latência suave.
LLM esta etapa certamente resultará na perda de informações (tom, entonação, emoção, etc.), e essas informações são mais importantes na comunicação humana (imagine como o tom da sua namorada ao dizer "detesto" representa diferentes significados).
Estima-se que a quantidade de treinamento e o volume de cálculo do modelo unificado não estejam no mesmo nível, por isso atualmente se faz essa escolha, uma escolha de trade-off.
STT-3.79%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 1
  • Repostar
  • Compartilhar
Comentário
0/400
pi币pivip
· 03-21 23:35
快 entrar numa posição!🚗
Ver originalResponder0
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)