ElevenLabs mã nguồn mở Kỹ năng Động cơ Giọng nói, thực hiện tích hợp hội thoại thoại thời gian thực độ trễ thấp

Thông tin từ Coinjie.com, ElevenLabs chính thức mở nguồn Speech Engine Skill, nhằm mục đích giúp các AI thông minh và mô hình ngôn ngữ lớn tích hợp nhanh khả năng tương tác bằng giọng nói chất lượng cao, độ trễ thấp.
Các nhà phát triển chỉ cần chạy lệnh npx skills add elevenlabs/skills để thêm động cơ giọng nói vào dự án, không cần kết nối nhiều API khác nhau.
Thành phần này dựa trên kết nối websocket hiệu suất cao, khi người dùng nói, trình duyệt sẽ bắt âm thanh và truyền luồng tới ElevenLabs, thực hiện chuyển đổi giọng nói thành văn bản theo thời gian thực và gửi đến máy chủ.
Máy chủ sử dụng mô hình ngôn ngữ lớn để tạo phản hồi, dùng hàm sendresponse() của SDK để gửi phản hồi trở lại, ElevenLabs sẽ chuyển đổi phản hồi thành giọng nói tổng hợp để phát lại.
Để đơn giản hóa phát triển frontend, ElevenLabs giới thiệu thư viện khách hàng/react và /client, trang frontend chỉ cần một lượng mã nhỏ, kết hợp với chứng thực phiên an toàn để nhanh chóng kích hoạt trợ lý giọng nói số.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • 2
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
L2AlleyRunner
· 2giờ trước
Sau này, chi phí phát triển dịch vụ khách hàng AI, trợ lý giọng nói sẽ giảm mạnh
Xem bản gốcTrả lời0
NightAuditBuddy
· 2giờ trước
sendresponse() API được thiết kế khá trực quan
Xem bản gốcTrả lời0
NonceNomad
· 2giờ trước
Hệ sinh thái mã nguồn mở sôi động, lợi ích cho các nhóm nhỏ và trung bình
Xem bản gốcTrả lời0
MerkleGarden
· 2giờ trước
Chất lượng cao + độ trễ thấp, cảnh đối thoại thời gian thực sẽ thay đổi lớn
Xem bản gốcTrả lời0
SlowerThanBlock
· 2giờ trước
Chuyển đổi giọng nói thành văn bản → LLM → Tổng hợp giọng nói, chuỗi này đã khép kín.
Xem bản gốcTrả lời0
SeaSaltMarketMakingNotes
· 2giờ trước
npx cài đặt một cú nhấp chuột thực sự tiện lợi, cuối cùng không cần phải loay hoay với nhiều bộ API nữa
Xem bản gốcTrả lời0
UnderTheWisteriaBridge
· 2giờ trước
ElevenLabs đợt mở mã nguồn này khá thực chất, rào cản tương tác bằng giọng nói trực tiếp giảm một nửa
Xem bản gốcTrả lời0
  • Đã ghim