阶跃上线StepAudio2.5ASR:引入MTP机制提速,32K窗口根治转写断片

robot
Geração de resumo em curso
ME News notícia, 24 de abril (UTC+8), de acordo com a monitorização da 动察 Beating, a 阶跃星辰 lançou o novo modelo de reconhecimento automático de fala StepAudio 2.5 ASR, que já está totalmente disponível na sua plataforma aberta.
Esta versão é a primeira a introduzir a tecnologia de previsão de múltiplos Tokens (MTP) de grandes modelos de linguagem no campo do reconhecimento de fala, melhorando significativamente a velocidade de inferência enquanto reutiliza a janela de contexto de 32K do grande modelo, quebrando a limitação da transcrição tradicional de áudio longo que exigia corte e junção.
O reconhecimento de fala tradicional está limitado pelo mecanismo autorregressivo, que precisa produzir Tokens um a um. O StepAudio 2.5 ASR transplantou a arquitetura de integração profunda ASR+MTP-5 do Step 3.5 Flash, prevendo múltiplos Tokens candidatos de uma só vez e verificando-os em paralelo.
O oficial afirma que esta arquitetura aumenta a taxa de transferência de inferência do modelo em 400%, reduz a latência em 60%, reduz os custos de inferência em 80%, e atinge um pico de inferência de 500 tokens/s.
Para resolver o problema de quebra de contexto causado pelo esquema comum de 'corte-transcrição-junção' na indústria (como esquecer o contexto do início ao transcrever a segunda metade), o novo modelo, ao reutilizar diretamente a janela de contexto de 32K, suporta a leitura única ponta a ponta de áudio completo de até 30 minutos.
No teste de entrada completa de 30 minutos, o modelo não apresentou degradação de precisão ao longo do tempo. A sua taxa de erro combinada nos 10 conjuntos de teste abertos autorizados em chinês e inglês, como o LibriSpeech, foi inferior à dos concorrentes.
(Fonte: BlockBeats)
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado