#STT# Comentário sobre o novo modelo de voz lançado pela OpenAI
A OpenAI lançou dois novos modelos de STT (speech-to-text) e um modelo de TTS (text-to-speech). Experimentei um pouco o modelo TTS e sinto que a IA ainda é muito evidente, especialmente a pronúncia do TTS em chinês, que é rígida, pouco fluida e até apresenta erros de pronúncia claros. Na área de TTS em chinês, sinto que o TTS da Byte e da Azure são utilizáveis comercialmente, enquanto o da OpenAI ainda não está muito bom. Acredito que isso esteja relacionado com a quantidade de dados de treinamento. O STT em chinês ainda não foi experimentado, mas a partir do gráfico de comparação de desempenho fornecido pela OpenAI, o scribe-v1 superou o OpenAI. LLM Desvantagens da separação: - Os três separados têm uma grande quantidade de trabalho em termos de aplicação, e a cadeia de chamadas como um todo é complexa, tornando difícil garantir uma latência suave. LLM esta etapa certamente resultará na perda de informações (tom, entonação, emoção, etc.), e essas informações são mais importantes na comunicação humana (imagine como o tom da sua namorada ao dizer "detesto" representa diferentes significados). Estima-se que a quantidade de treinamento e o volume de cálculo do modelo unificado não estejam no mesmo nível, por isso atualmente se faz essa escolha, uma escolha de trade-off.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
#STT# Comentário sobre o novo modelo de voz lançado pela OpenAI
A OpenAI lançou dois novos modelos de STT (speech-to-text) e um modelo de TTS (text-to-speech).
Experimentei um pouco o modelo TTS e sinto que a IA ainda é muito evidente, especialmente a pronúncia do TTS em chinês, que é rígida, pouco fluida e até apresenta erros de pronúncia claros.
Na área de TTS em chinês, sinto que o TTS da Byte e da Azure são utilizáveis comercialmente, enquanto o da OpenAI ainda não está muito bom. Acredito que isso esteja relacionado com a quantidade de dados de treinamento.
O STT em chinês ainda não foi experimentado, mas a partir do gráfico de comparação de desempenho fornecido pela OpenAI, o scribe-v1 superou o OpenAI.
LLM
Desvantagens da separação:
- Os três separados têm uma grande quantidade de trabalho em termos de aplicação, e a cadeia de chamadas como um todo é complexa, tornando difícil garantir uma latência suave.
LLM esta etapa certamente resultará na perda de informações (tom, entonação, emoção, etc.), e essas informações são mais importantes na comunicação humana (imagine como o tom da sua namorada ao dizer "detesto" representa diferentes significados).
Estima-se que a quantidade de treinamento e o volume de cálculo do modelo unificado não estejam no mesmo nível, por isso atualmente se faz essa escolha, uma escolha de trade-off.