我刚刚在语音识别的世界里发现了一些有趣的东西。Sierra 刚刚开源了 μ-Bench,这是一个用于 ASR 的多语言基准测试,它解决了一个真正的问题:现有的大多数基准测试都聚焦于英语,这会严重限制在真实客户环境中对系统进行评估。



在 μ-Bench 上特别值得关注的是,它提出了一种比旧方法更细致、更有分寸的思路。与传统的 Word Error Rate (WER) 不同,他们引入了 Utterance Error Rate (UER),它能区分那些真正会改变消息含义的错误,以及那些不会影响理解的错误。这对于评估真实的质量来说,是一次显著的进步。

该数据集包含 250 段真实的客户服务录音,以及 4 270 段经过标注的音频摘录,覆盖五种语言:英语、西班牙语、土耳其语、越南语和普通话。就代表性而言,这已经比之前强得多。

从性能表现来看,Google Chirp-3 在精度上明显占据优势;而 Deepgram Nova-3 以速度见长,但在多语言精度方面仍稍显不足。看到不同供应商在各项指标上的位置如何呈现,确实很有意思。

完整的基准测试和排行榜现已在 Hugging Face 上提供,这为更多供应商的参与打开了大门。这类开源倡议正是能真正推动行业向前发展的那种行动,尤其是在需要针对多语言的真实用例来提升语音识别能力时。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论