لقد اكتشفت مؤخرًا شيئًا مثيرًا في عالم التعرف على الصوت. قامت Sierra بفتح مصدر μ-Bench، وهو معيار تقييم متعدد اللغات لنظام التعرف على الكلام الذي يعالج مشكلة حقيقية: معظم معايير التقييم الموجودة تركز على اللغة الإنجليزية، مما يحد بشكل كبير من تقييم الأنظمة في بيئة العملاء الحقيقية.



ما يميز μ-Bench بشكل خاص هو أنه يقترح نهجًا أكثر دقة من الطرق القديمة. بدلاً من معدل أخطاء الكلمات التقليدي (WER)، قدموا معدل أخطاء العبارة (UER)، الذي يميز بين الأخطاء التي تغير معنى الرسالة فعليًا وتلك التي لا تؤثر على الفهم. إنها تطور ملحوظ لتقييم الجودة الحقيقية.

تتضمن مجموعة البيانات 250 تسجيلًا حقيقيًا لخدمة العملاء و4,270 مقطعًا صوتيًا موسومًا يغطي خمس لغات: الإنجليزية، الإسبانية، التركية، الفيتنامية، والماندرين. هذا أكثر تمثيلًا بكثير مما كان عليه سابقًا.

من حيث الأداء، يتفوق Google Chirp-3 بوضوح في الدقة، بينما يبرز Deepgram Nova-3 بسرعته لكنه يتأخر في الدقة متعددة اللغات. من المثير للاهتمام أن نرى كيف يضع كل مزود خدمة نفسه وفقًا للمعايير.

المعيار الكامل والتصنيفات متاحة الآن على Hugging Face، مما يفتح الباب لمزيد من مشاركة المزودين. إنها مبادرة مفتوحة المصدر تدفع الصناعة حقًا إلى الأمام، خاصة عندما يتعلق الأمر بتحسين التعرف على الصوت لحالات الاستخدام الحقيقية بعدة لغات.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت