شركة ByteDance تطلق نموذج الصوت ثنائي الاتجاه Seeduplex، ويدخل التفاعل الصوتي بالذكاء الاصطناعي عصر «الاستماع والتحدث في آن واحد»

robot
إنشاء الملخص قيد التقدم

رسالة AIMPACT، في 9 أبريل، أطلقت فريق Seed من ByteDance نموذج الصوت الكامل الثنائي الأصلي Seeduplex، وتم إطلاقه بالكامل على تطبيق Doubao، مما يدل على ترقية التفاعل الصوتي من “نظام جولات” إلى حوار طبيعي في الوقت الحقيقي.


يحقق Seeduplex من خلال نمذجة مشتركة للصوت والمعنى قدرة المعالجة المتزامنة لـ “الاستماع والتحدث” في آن واحد، مع تحسين ملحوظ في مقاومة التشويش في بيئات معقدة. تظهر البيانات أن نسبة الأخطاء في الردود والأخطاء في المقاطعة انخفضت حوالي 50% مقارنة بالحلول نصف الثنائية التقليدية.


في تجربة التفاعل، أدخل النموذج تقنية الحكم الديناميكي للتوقف، مما قلل من زمن الاستجابة حوالي 250 مللي ثانية، وانخفضت ظاهرة التحدث على حساب الآخر بنسبة 40%، مما يسمح بتمييز أكثر دقة بين توقف المستخدم وانتهاء الحوار. بالإضافة إلى ذلك، من خلال تقنية العينات المضاربة والتحسين الكمي، يحافظ النظام على زمن استجابة منخفض وسلاسة في سيناريوهات الحمل العالي، مع زيادة رضا المستخدم عن المكالمات بنسبة حوالي 8.34%.


يمثل هذا التحديث تطور الذكاء الاصطناعي الصوتي نحو “تفاعل في الوقت الحقيقي ومتعدد الوسائط وشبيه بالبشر”، مع إمكانية دمجه في المستقبل مع القدرات البصرية، لدفع المساعد الذكي نحو تكامل “السمع، الرؤية، التفكير، والكلام”. (المصدر: ByteDance)



شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت