أخبار ME News، 22 مايو (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، قام فريق من جامعة سنغافورة الوطنية، ومعهد نان يانغ للتكنولوجيا، ومعمل الذكاء الاصطناعي في شنغهاي، بتطوير نموذج أساسي مفتوح المصدر لأول نظام تعرف على الصوت المقاوم لجميع السيناريوهات Mega-ASR، بهدف حل مشاكل الوهم، وحذف الكلمات، والإخراج الفارغ في بيئات الصوت الحقيقية. يعتمد النموذج على Qwen3-ASR 1.7B كمحرك أساسي، وحقق أداءً أعلى بنسبة تقارب 30% مقارنة بنماذج Whisper و Gemini 3 Pro و Seed-ASR في بيئات صوتية معقدة للغاية. حاليًا، تم إصدار المشروع كمصدر مفتوح على GitHub، مع نشر جميع الرموز وأوزان النموذج بموجب ترخيص Apache-2.0. أنشأ فريق البحث مجموعة تحتوي على 2.4 مليون عينة، بإجمالي مدة 11 ألف ساعة.

MeNews

2026-05-22 12:39:04

أخبار ME News، 22 مايو (بتوقيت UTC+8)، وفقًا لمراقبة Beating، أطلقت فرق من جامعة نانيانغ التكنولوجية الوطنية، وجامعة سنغافورة الوطنية، ومعمل الذكاء الاصطناعي في شنغهاي النموذج الأساسي الأول للتعرف على الصوت المقاوم لجميع السيناريوهات Mega-ASR كمصدر مفتوح، بهدف حل مشاكل الوهم، وحذف الكلمات، والإخراج الفارغ التي تواجه التعرف على الصوت في البيئات الحقيقية. يعتمد النموذج على محرك Qwen3-ASR 1.7B، ويحقق أداءً أعلى بنسبة تقارب 30% مقارنة بنماذج مثل Whisper و Gemini 3 Pro و Seed-ASR في بيئات صوتية معقدة للغاية. حاليًا، تم إصدار المشروع كمصدر مفتوح على GitHub، مع نشر جميع الشفرات وأوزان النموذج بموجب ترخيص Apache-2.0.
أنشأت الفرق البحثية مجموعة بيانات تدريب Voices-in-the-wild-2M تحتوي على 2.4 مليون عينة، بإجمالي 11 ألف ساعة من التسجيلات. تم توليد مجموعة البيانات من خلال خط أنابيب محاكاة يعتمد على خصائص الطيف الفيزيائية، حيث تم تركيب سبعة تأثيرات صوتية أساسية تشمل الارتداد، والصدى، والضوضاء الإضافية، والمجال البعيد، وفقدان التردد، وتقييد النطاق الترددي، وتشويه القص، وتم اشتقاق 54 سيناريو بيئة مركبة. لضمان استقرار التدريب، قام الفريق بعد تصفية العينات التي تتجاوز نسبة أخطاء الكلمات 70%، بضبط توزيع صعوبة مجموعة البيانات من خلال فحص المعقولية الفيزيائية.
في آلية التدريب، أدخل Mega-ASR تقنية Fine-tuning التدريجي من الصوت إلى المعنى A2S-SFT، حيث يتم محاذاة ميزات الصوت على مراحل لتعزيز قدرة النموذج على استعادة المعنى تحت التشويش الشديد. في مرحلة تحسين الاستراتيجية، يستخدم النموذج استراتيجية تحسين معدل أخطاء الكلمات ذات الحبيبتين DG-WGPO لتعزيز التعلم المعزز. عندما يكون جودة الصوت المدخل جيدة، ويكون معدل أخطاء الكلمات منخفضًا، يركز النظام على إعادة بناء التفاصيل الصوتية على مستوى الأحرف. وإذا كان الصوت مشوهًا بشدة، ويكون معدل أخطاء الكلمات مرتفعًا، يتحول آلية القرار إلى إعادة بناء المعنى على مستوى الجملة، مما يقلل بشكل كبير من ظواهر الوهم والحذف الشائعة في النماذج الكبيرة.
لمواجهة انخفاض طفيف محتمل في معدل التعرف في الصوت النظيف، يتضمن Mega-ASR آلية توجيه ديناميكية. يمكن لمحدد التوجيه تقييم جودة الصوت تلقائيًا، واتخاذ قرار ذكي حول ما إذا كان يجب تحميل أوزان Fine-tuning من LoRA، لضمان أن يكون أداء النموذج مثاليًا في البيئات النظيفة والمزعجة على حد سواء. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 10

أعجبني
10
6
3
مشاركة

تعليق

إضافة تعليق

CheckingEthInTheElevator

· منذ 1 س

Qwen3-ASR 1.7B أساس، نظام عليي يحقق الفوز مرة أخرى

شاهد النسخة الأصليةرد0

NeonIceMelt

· منذ 5 س

ما المقصود ببيئة صوتية معقدة للغاية؟ هل هي مترو أنفاق + حانة + موقع بناء؟

شاهد النسخة الأصليةرد0

GateUser-1bc81bb2

· منذ 5 س

الفريق المحلي يقود، هل تعتبر هذه الموجة من النماذج المحلية التي تتجه نحو التصدير أم تعاون دولي

شاهد النسخة الأصليةرد0

MistBlueLily

· منذ 6 س

تم سحب Seed-ASR أيضًا لإدانته، شركة ByteDance: ؟

شاهد النسخة الأصليةرد0

ThereIsAChainInTheReflection.

· منذ 6 س

الصلابة في البيئة الحقيقية هي الأمر الحقيقي، ومؤشرات المختبر الجذابة تتهاوى عند التطبيق الفعلي

شاهد النسخة الأصليةرد0

MevInRetrospect

· منذ 6 س

2.4 مليون عينة و11 ألف ساعة، هندسة البيانات تثير ألم القلب

شاهد النسخة الأصليةرد0

المواضيع الرائجة
عرض المزيد
#
TradfiTradingChallenge
269.44K درجة الشعبية
#
PlatinumCardCreatorExclusive
79.53K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
48.62K درجة الشعبية
#
#DailyPolymarketHotspot
1.03M درجة الشعبية
#
GateSquarePizzaDay
609.25K درجة الشعبية

مُثبت

خريطة الموقع

المواضيع الرائجة

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

مُثبت