هذه الموجة من محرك الصوت المفتوح المصدر من ElevenLabs، مطورو البرمجيات في غاية السعادة، حيث يمكن بأمر واحد جعل الذكاء الاصطناعي يتحدث، مع تأخير منخفض وواقعية عالية، مما كسر حاجز التفاعل الصوتي بشكل كامل.

شاهد النسخة الأصلية
CoinNetwork
محرك كلام مفتوح المصدر من ElevenLabs، يحقق تكامل حوارات صوتية في الوقت الحقيقي منخفضة التأخير
أخبار شبكة العملات الرقمية، أطلقت ElevenLabs رسميًا محرك الكلام المفتوح المصدر، بهدف تمكين الوكيل الذكي والنماذج اللغوية الكبيرة من الاندماج بسرعة مع قدرات تفاعل صوتي عالية الدقة ومنخفضة التأخير. كل ما على المطورين فعله هو تشغيل أمر npx skills add elevenlabs/skills لإضافة محرك الصوت إلى المشروع، دون الحاجة إلى التفاعل مع عدة واجهات برمجة تطبيقات. يعتمد هذا المكون على اتصال websocket عالي الأداء، حيث يلتقط المتصفح الصوت عند تحدث المستخدم ويقوم ببثه بشكل مستمر إلى ElevenLabs، ليتم تحويل الصوت إلى نص في الوقت الحقيقي وإرساله إلى الخادم. يقوم الخادم بتوليد الاستجابة باستخدام النموذج اللغوي الكبير، ويستخدم دالة sendresponse() من SDK لإرسال الرد مرة أخرى، ثم تقوم ElevenLabs بتحويله إلى صوت مركب ليتم تشغيله. ولتبسيط تطوير الواجهة الأمامية، أطلقت ElevenLabs /react و
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت