شركة ByteDance تطلق نموذج الصوت ثنائي الاتجاه Seeduplex، ويدخل تفاعل الصوت بالذكاء الاصطناعي عصر «الاستماع والتحدث في آن واحد»

robot
إنشاء الملخص قيد التقدم

رسالة AIMPACT، 9 أبريل، أطلقت مجموعة Seed في ByteDance نموذجًا لغويًا صوتيًا أصليًا ثنائي الاتجاه Seeduplex، وتمت إتاحته بالكامل داخل تطبيق Doubao، ما يشير إلى ترقية تفاعل الصوت من «نظام التناوب» إلى حوار طبيعي فوري.


يحقق Seeduplex قدرة المعالجة المتزامنة «استمع ثم تكلّم» من خلال النمذجة المشتركة للصوت والدلالة، مع تعزيز ملحوظ في مقاومة التشويش في البيئات المعقدة. تُظهر البيانات أنه مقارنةً بالحلول التقليدية شبه ثنائية الاتجاه، ينخفض معدل الردود غير الصحيحة ومعدل المقاطعات غير المقصودة بنحو 50%.


فيما يتعلق بتجربة التفاعل، أدخل هذا النموذج تقنية الإيقاف التكيّفي الديناميكي، ما يقلّل زمن التأخر في الاستجابة بنحو 250 مللي ثانية، ويخفض ظاهرة الخطف بالكلام بنسبة 40%، مما يتيح تمييزًا أدق بين توقف المستخدم ونهاية الحوار. وفي الوقت نفسه، وبفضل أخذ عينات استباقية وتحسينات التكميم، يحافظ النظام في سيناريوهات الحمل المرتفع على زمن استجابة منخفض وسلاسة في الأداء، كما ارتفعت الرضا العام عن المكالمات بنحو 8.34%.


تعني هذه الترقية أن صوت الذكاء الاصطناعي يتجه نحو «الزمن الفعلي، ومتعدد الوسائط، وتفاعل شبيه بالبشر»، ومن المتوقع في المستقبل أن يجري دمجه مع قدرات الرؤية، بما يدفع المساعدين الذكاء إلى التطور نحو نموذج متكامل لـ «اسمع، وانظر، وافكر، وتكلم». (المصدر: ByteDance)



شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:2
    0.00%
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.3Kعدد الحائزين:2
    0.19%
  • تثبيت