阶跃上线StepAudio2.5ASR:引入MTP机制提速,32K窗口根治转写断片

robot
摘要生成中
ME News 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,阶跃星辰发布新一代自动语音识别模型 StepAudio 2.5 ASR,目前已全量上线其开放平台。该版本率先将大语言模型的多 Token 预测(MTP)技术引入语音识别领域,在大幅提升推理速度的同时,复用大模型 32K 上下文窗口,打破了传统长音频转写需要切片拼接的限制。 传统语音识别受限于自回归机制,必须逐个 Token 输出。StepAudio 2.5 ASR 移植了 Step 3.5 Flash 同款的 ASR+MTP-5 深度融合架构,一次预测多个候选 Token 并并行验证。官方称该架构使模型推理吞吐量提升 400%、时延降低 60%、推理成本直降 80%,推理峰值达 500 tokens/s。 针对行业内普遍采用「切片-转写-拼接」方案导致的上下文断裂问题(如转写到后半段会忘记开头的背景),新模型通过直接复用 32K 上下文窗口,支持端到端单次读入最长 30 分钟完整音频。在 30 分钟满载输入测试中,模型未出现随时间推移精度衰减的情况。其在 LibriSpeech 等中英文 10 个权威开源测试集上的综合错误率均低于竞品。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论