هل تم التفوق على Whisper و Gemini 3 Pro بأكثر من 30% في بيئة صوتية معقدة؟ هذه المرة، Mega-ASR من Qwen3-ASR 1.7B، وهو أساس، لديه شيء ما، مشكلة الهلوسة وسقوط الكلمات تم التعامل معها أخيرًا بشكل جدي.

شاهد النسخة الأصلية
MeNews
الجامعة الوطنية في سنغافورة ومعهد نانيانغ التكنولوجي يطلقان Mega-ASR مفتوح المصدر، لتقليل هلوسة وفقدان الكلمات في أنظمة التعرف التلقائي على الكلام تحت الضوضاء الشديدة
أخبار ME News، 22 مايو (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، قام فريق من جامعة سنغافورة الوطنية، ومعهد نان يانغ للتكنولوجيا، ومعمل الذكاء الاصطناعي في شنغهاي، بتطوير نموذج أساسي مفتوح المصدر لأول نظام تعرف على الصوت المقاوم لجميع السيناريوهات Mega-ASR، بهدف حل مشاكل الوهم، وحذف الكلمات، والإخراج الفارغ في بيئات الصوت الحقيقية. يعتمد النموذج على Qwen3-ASR 1.7B كمحرك أساسي، وحقق أداءً أعلى بنسبة تقارب 30% مقارنة بنماذج Whisper و Gemini 3 Pro و Seed-ASR في بيئات صوتية معقدة للغاية. حاليًا، تم إصدار المشروع كمصدر مفتوح على GitHub، مع نشر جميع الرموز وأوزان النموذج بموجب ترخيص Apache-2.0. أنشأ فريق البحث مجموعة تحتوي على 2.4 مليون عينة، بإجمالي مدة 11 ألف ساعة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت