StepAudio2.5ASR de Jieyue se lanza: introduce el mecanismo MTP para acelerar, ventana de 32K para eliminar por completo las interrupciones en la transcripción.

robot
Generación de resúmenes en curso

ME News noticia, 24 de abril (UTC+8), según el monitoreo de Dongcha Beating, Jieyue Xingchen lanzó el nuevo modelo de reconocimiento automático de voz StepAudio 2.5 ASR, que ya está completamente disponible en su plataforma abierta.

Esta versión introduce por primera vez la tecnología de predicción de múltiples tokens (MTP) de modelos de lenguaje grandes en el campo del reconocimiento de voz. Al mismo tiempo que aumenta significativamente la velocidad de inferencia, reutiliza la ventana de contexto de 32K del modelo grande, rompiendo la limitación de que las transcripciones de audio largas tradicionales requieren segmentación y concatenación.

El reconocimiento de voz tradicional está limitado por el mecanismo autorregresivo, debe generar tokens uno por uno. StepAudio 2.5 ASR ha trasplantado la arquitectura de integración profunda ASR+MTP-5 del mismo tipo que Step 3.5 Flash, prediciendo múltiples tokens candidatos a la vez y verificándolos en paralelo. Según la compañía, esta arquitectura aumenta el rendimiento de inferencia del modelo en un 400%, reduce la latencia en un 60%, reduce el costo de inferencia en un 80%, y alcanza un pico de inferencia de 500 tokens/s.

Para abordar el problema de la ruptura del contexto causado por el esquema de «segmentación-transcripción-concatenación» comúnmente adoptado en la industria (por ejemplo, al transcribir la segunda mitad se olvida el fondo de la primera), el nuevo modelo, al reutilizar directamente la ventana de contexto de 32K, admite la lectura completa de audio de hasta 30 minutos de extremo a extremo en una sola vez. En pruebas con entrada completa de 30 minutos, el modelo no mostró degradación de precisión con el tiempo. Sus tasas de error generales en 10 conjuntos de pruebas de código abierto autorizados en chino e inglés, como LibriSpeech, son inferiores a las de la competencia.

(Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado