الخطوة تطلق StepAudio2.5ASR: إدخال آلية MTP لتسريع السرعة، ونافذة 32K تعالج مشكلة انقطاع النسخ.

robot
إنشاء الملخص قيد التقدم
ME News رسالة، 24 أبريل (UTC+8)، وفقًا لرصد Beating، أصدرت Step-echo الجيل الجديد من نموذج التعرف التلقائي على الكلام StepAudio 2.5 ASR، والذي تم إطلاقه بالكامل على منصتها المفتوحة. هذا الإصدار هو الأول الذي يقدم تقنية التنبؤ المتعدد للرموز (MTP) الخاصة بنماذج اللغة الكبيرة إلى مجال التعرف على الكلام، مما يحسن سرعة الاستدلال بشكل كبير مع إعادة استخدام نافذة السياق 32K للنموذج الكبير، مما يكسر قيود التقطيع والتجميع في تحويل الصوت الطويل التقليدي. التعرف التقليدي على الكلام محدود بآلية الانحدار الذاتي، حيث يجب إخراج كل رمز على حدة. StepAudio 2.5 ASR ينقل نفس بنية التكامل العميق ASR+MTP-5 المستخدمة في Step 3.5 Flash، حيث يتنبأ بعدة رموز مرشحة في وقت واحد ويتحقق منها بالتوازي. تدعي الشركة أن هذه البنية تزيد من إنتاجية استدلال النموذج بنسبة 400%، وتقلل من زمن الوصول بنسبة 60%، وتخفض تكلفة الاستدلال بنسبة 80%، مع ذروة استدلال تصل إلى 500 رمز/ثانية. بالنسبة لمشكلة انقطاع السياق الناتجة عن المخطط الشائع في الصناعة "تقطيع-تحويل-تجميع" (مثل نسيان خلفية البداية عند التحويل إلى النصف الثاني)، فإن النموذج الجديد يدعم قراءة دفعة واحدة لملف صوتي كامل يصل إلى 30 دقيقة من البداية إلى النهاية من خلال إعادة استخدام نافذة السياق 32K مباشرة. في اختبار الإدخال الكامل لمدة 30 دقيقة، لم يظهر النموذج أي تدهور في الدقة بمرور الوقت. ومعدل الخطأ الإجمالي له في 10 مجموعات اختبار موثوقة مفتوحة المصدر باللغتين الصينية والإنجليزية مثل LibriSpeech كان أقل من المنافسين. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت