2025-03-21 09:55:53

#STT# Comentário sobre o novo modelo de voz lançado pela OpenAI

A OpenAI lançou dois novos modelos de STT (speech-to-text) e um modelo de TTS (text-to-speech).
Experimentei um pouco o modelo TTS e sinto que a IA ainda é muito evidente, especialmente a pronúncia do TTS em chinês, que é rígida, pouco fluida e até apresenta erros de pronúncia claros.
Na área de TTS em chinês, sinto que o TTS da Byte e da Azure são utilizáveis comercialmente, enquanto o da OpenAI ainda não está muito bom. Acredito que isso esteja relacionado com a quantidade de dados de treinamento.
O STT em chinês ainda não foi experimentado, mas a partir do gráfico de comparação de desempenho fornecido pela OpenAI, o scribe-v1 superou o OpenAI.
LLM
Desvantagens da separação:
- Os três separados têm uma grande quantidade de trabalho em termos de aplicação, e a cadeia de chamadas como um todo é complexa, tornando difícil garantir uma latência suave.
LLM esta etapa certamente resultará na perda de informações (tom, entonação, emoção, etc.), e essas informações são mais importantes na comunicação humana (imagine como o tom da sua namorada ao dizer "detesto" representa diferentes significados).
Estima-se que a quantidade de treinamento e o volume de cálculo do modelo unificado não estejam no mesmo nível, por isso atualmente se faz essa escolha, uma escolha de trade-off.

STT-3.79%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
1
Repostar
Compartilhar

Comentário

0/400

pi币pi

· 03-21 23:35

快 entrar numa posição！🚗

Ver originalResponder0

Tema
#Gate Initial Listing WLFI
20k Popularidade
#Will Crypto Market Break Out in September?
28k Popularidade
#Are You Bullish or Bearish Today?
23k Popularidade
#GUSD Now Live on Gate
44k Popularidade
#Gate Alpha XLAB Points Airdrop
3k Popularidade

Marcar

sitemap