广场
最新
热门
资讯
我的主页
发布
阶跃上线StepAudio2.5ASR:引入MTP机制提速,32K窗口根治转写断片
ME News
2026-07-03 07:42:03
关注
摘要生成中
ME News 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,阶跃星辰发布新一代自动语音识别模型 StepAudio 2.5 ASR,目前已全量上线其开放平台。该版本率先将大语言模型的多 Token 预测(MTP)技术引入语音识别领域,在大幅提升推理速度的同时,复用大模型 32K 上下文窗口,打破了传统长音频转写需要切片拼接的限制。 传统语音识别受限于自回归机制,必须逐个 Token 输出。StepAudio 2.5 ASR 移植了 Step 3.5 Flash 同款的 ASR+MTP-5 深度融合架构,一次预测多个候选 Token 并并行验证。官方称该架构使模型推理吞吐量提升 400%、时延降低 60%、推理成本直降 80%,推理峰值达 500 tokens/s。 针对行业内普遍采用「切片-转写-拼接」方案导致的上下文断裂问题(如转写到后半段会忘记开头的背景),新模型通过直接复用 32K 上下文窗口,支持端到端单次读入最长 30 分钟完整音频。在 30 分钟满载输入测试中,模型未出现随时间推移精度衰减的情况。其在 LibriSpeech 等中英文 10 个权威开源测试集上的综合错误率均低于竞品。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
gStocks代币化股票上线
399.38万 热度
#
非农爆冷打压加息预期
102.78万 热度
#
预测世界杯阿根廷VS佛得角
18.18万 热度
#
ETH突破1700
1.52亿 热度
#
Meta卖算力引发存储股大跌
138.93万 热度
置顶
网站地图
阶跃上线StepAudio2.5ASR:引入MTP机制提速,32K窗口根治转写断片