ME News رسالة، 24 أبريل (UTC+8)، وفقًا لرصد Beating، أصدرت Step-echo الجيل الجديد من نموذج التعرف التلقائي على الكلام StepAudio 2.5 ASR، والذي تم إطلاقه بالكامل على منصتها المفتوحة. هذا الإصدار هو الأول الذي يقدم تقنية التنبؤ المتعدد للرموز (MTP) الخاصة بنماذج اللغة الكبيرة إلى مجال التعرف على الكلام، مما يحسن سرعة الاستدلال بشكل كبير مع إعادة استخدام نافذة السياق 32K للنموذج الكبير، مما يكسر قيود التقطيع والتجميع في تحويل الصوت الطويل التقليدي. التعرف التقليدي على الكلام محدود بآلية الانحدار الذاتي، حيث يجب إخراج كل رمز على حدة. StepAudio 2.5 ASR ينقل نفس بنية التكامل العميق ASR+MTP-5 المستخدمة في Step 3.5 Flash، حيث يتنبأ بعدة رموز مرشحة في وقت واحد ويتحقق منها بالتوازي. تدعي الشركة أن هذه البنية تزيد من إنتاجية استدلال النموذج بنسبة 400%، وتقلل من زمن الوصول بنسبة 60%، وتخفض تكلفة الاستدلال بنسبة 80%، مع ذروة استدلال تصل إلى 500 رمز/ثانية. بالنسبة لمشكلة انقطاع السياق الناتجة عن المخطط الشائع في الصناعة "تقطيع-تحويل-تجميع" (مثل نسيان خلفية البداية عند التحويل إلى النصف الثاني)، فإن النموذج الجديد يدعم قراءة دفعة واحدة لملف صوتي كامل يصل إلى 30 دقيقة من البداية إلى النهاية من خلال إعادة استخدام نافذة السياق 32K مباشرة. في اختبار الإدخال الكامل لمدة 30 دقيقة، لم يظهر النموذج أي تدهور في الدقة بمرور الوقت. ومعدل الخطأ الإجمالي له في 10 مجموعات اختبار موثوقة مفتوحة المصدر باللغتين الصينية والإنجليزية مثل LibriSpeech كان أقل من المنافسين. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
gStocksTokenizedStocksLive
3.99M درجة الشعبية
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.02M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
67.72K درجة الشعبية
#
PredictWorldCupShare20000U
181.89K درجة الشعبية
#
ETHBreaks1700
152.53M درجة الشعبية

مُثبت

خريطة الموقع

الخطوة تطلق StepAudio2.5ASR: إدخال آلية MTP لتسريع السرعة، ونافذة 32K تعالج مشكلة انقطاع النسخ.

المواضيع الرائجة

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

مُثبت