10,000 USDT 悬赏,寻找跟单金牌星探!🕵️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
我刚刚在语音识别的世界里发现了一些有趣的东西。Sierra 刚刚开源了 μ-Bench,这是一个用于 ASR 的多语言基准测试,它解决了一个真正的问题:现有的大多数基准测试都聚焦于英语,这会严重限制在真实客户环境中对系统进行评估。
在 μ-Bench 上特别值得关注的是,它提出了一种比旧方法更细致、更有分寸的思路。与传统的 Word Error Rate (WER) 不同,他们引入了 Utterance Error Rate (UER),它能区分那些真正会改变消息含义的错误,以及那些不会影响理解的错误。这对于评估真实的质量来说,是一次显著的进步。
该数据集包含 250 段真实的客户服务录音,以及 4 270 段经过标注的音频摘录,覆盖五种语言:英语、西班牙语、土耳其语、越南语和普通话。就代表性而言,这已经比之前强得多。
从性能表现来看,Google Chirp-3 在精度上明显占据优势;而 Deepgram Nova-3 以速度见长,但在多语言精度方面仍稍显不足。看到不同供应商在各项指标上的位置如何呈现,确实很有意思。
完整的基准测试和排行榜现已在 Hugging Face 上提供,这为更多供应商的参与打开了大门。这类开源倡议正是能真正推动行业向前发展的那种行动,尤其是在需要针对多语言的真实用例来提升语音识别能力时。