محرك كلام مفتوح المصدر من ElevenLabs، يحقق تكامل حوارات صوتية في الوقت الحقيقي منخفضة التأخير

موقع بي جيه وي نيوز، أطلقت ElevenLabs رسميًا محرك الكلام المفتوح المصدر، بهدف تمكين الوكيل الذكي والنماذج اللغوية الكبيرة من دمج قدرات التفاعل الصوتي عالية الدقة ومنخفضة التأخير بسرعة.
يكفي المطورون تشغيل الأمر npx skills add elevenlabs/skills لإضافة محرك الصوت إلى المشروع، دون الحاجة إلى التفاعل مع عدة واجهات برمجة تطبيقات.
تم بناء هذا المكون على اتصال ويب سوكيت عالي الأداء، حيث يلتقط المتصفح الصوت عند تحدث المستخدم ويقوم ببثه بشكل مستمر إلى ElevenLabs، ليتم تحويل الصوت إلى نص في الوقت الحقيقي وإرساله إلى الخادم.
يقوم الخادم بتوليد الاستجابة باستخدام النموذج اللغوي الكبير، ويستخدم دالة sendresponse() في SDK لإرسال الرد مرة أخرى، ثم تقوم ElevenLabs بتحويله إلى صوت مركب ليتم تشغيله.
لتبسيط تطوير الواجهة الأمامية، أطلقت ElevenLabs مكتبة /react و /client، بحيث يحتاج صفحة الويب فقط إلى كمية صغيرة من الشيفرة، مع اعتمادها على بيانات اعتماد الجلسة الآمنة لبدء مساعد صوت رقمي بسرعة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
L2AlleyRunner
· منذ 2 س
في المستقبل، ستنخفض تكلفة تطوير خدمات العملاء بالذكاء الاصطناعي والمساعدين الصوتيين بشكل كبير
شاهد النسخة الأصليةرد0
NightAuditBuddy
· منذ 2 س
sendresponse() هذا API مصمم بشكل بديهي جدًا
شاهد النسخة الأصليةرد0
NonceNomad
· منذ 2 س
نظام بيئي مفتوح المصدر يشتعل، مما يفيد الفرق الصغيرة والمتوسطة
شاهد النسخة الأصليةرد0
MerkleGarden
· منذ 2 س
صوت عالي الدقة + تأخير منخفض، سيناريو المحادثة في الوقت الحقيقي سيتغير تمامًا
شاهد النسخة الأصليةرد0
SlowerThanBlock
· منذ 2 س
تحويل الصوت إلى نص → النموذج اللغوي الكبير → توليف الصوت، أصبحت هذه الحلقة مغلقة
شاهد النسخة الأصليةرد0
SeaSaltMarketMakingNotes
· منذ 2 س
npx التثبيت بنقرة واحدة فعلاً رائع، أخيرًا لم أعد بحاجة للعبث مع عدة مجموعات من واجهات برمجة التطبيقات
شاهد النسخة الأصليةرد0
UnderTheWisteriaBridge
· منذ 2 س
لقد كانت خطوة ElevenLabs في فتح المصدر فعالة حقًا، حيث تم تقليل عتبة التفاعل الصوتي إلى النصف مباشرة
شاهد النسخة الأصليةرد0
  • مُثبت