Lançamento do StepAudio2.5ASR pela JieYue: introdução do mecanismo MTP para aceleração, janela de 32K para eliminar interrupções na transcrição.

robot
Geração do resumo em andamento
ME News noticia que, em 24 de abril (UTC+8), de acordo com o monitoramento da Beating, a Jieyue Xingchen lançou o novo modelo de reconhecimento automático de fala StepAudio 2.5 ASR, que já está totalmente disponível em sua plataforma aberta. Esta versão é a primeira a introduzir a tecnologia de previsão de múltiplos tokens (MTP) de grandes modelos de linguagem no campo do reconhecimento de fala. Ao mesmo tempo em que aumenta significativamente a velocidade de inferência, ela reutiliza a janela de contexto de 32K do grande modelo, quebrando a limitação dos métodos tradicionais de transcrição de áudio longo que exigem segmentação e concatenação.
O reconhecimento de fala tradicional é limitado pelo mecanismo autorregressivo, que requer a saída de tokens um por um.
O StepAudio 2.5 ASR adota a arquitetura de fusão profunda ASR+MTP-5 do Step 3.5 Flash, prevendo vários tokens candidatos de uma vez e validando-os em paralelo.
A empresa afirma que essa arquitetura aumenta a taxa de transferência de inferência do modelo em 400%, reduz a latência em 60%, diminui os custos de inferência em 80% e atinge um pico de inferência de 500 tokens/s.
Para o problema de quebra de contexto causado pela solução comum de 'segmentação-transcrição-concatenação' na indústria (como esquecer o contexto inicial ao transcrever a segunda metade), o novo modelo, ao reutilizar diretamente a janela de contexto de 32K, suporta a leitura ponta a ponta de um único áudio completo de até 30 minutos.
Nos testes de entrada completa de 30 minutos, o modelo não apresentou degradação de precisão ao longo do tempo.
Sua taxa de erro geral em 10 conjuntos de testes abertos autoritários (como LibriSpeech) em chinês e inglês é inferior à dos concorrentes.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado