ElevenLabs đợt này mở mã nguồn động cơ giọng nói Skill, các nhà phát triển vui mừng, chỉ với một lệnh có thể khiến AI bắt đầu nói chuyện, độ trễ thấp + độ trung thực cao, rào cản của tương tác bằng giọng nói đã bị phá vỡ trực tiếp.

Xem bản gốc
CoinNetwork
ElevenLabs mã nguồn mở Kỹ năng Động cơ Giọng nói, thực hiện tích hợp hội thoại thoại thời gian thực độ trễ thấp
Thông tin từ Coinjie.com, ElevenLabs chính thức mở nguồn Speech Engine Skill, nhằm mục đích giúp các AI thông minh và mô hình ngôn ngữ lớn tích hợp nhanh chóng khả năng tương tác bằng giọng nói chất lượng cao, độ trễ thấp. Các nhà phát triển chỉ cần chạy lệnh npx skills add elevenlabs/skills để thêm động cơ giọng nói vào dự án, không cần kết nối nhiều API khác nhau. Thành phần này dựa trên kết nối websocket hiệu suất cao, khi người dùng nói, trình duyệt sẽ bắt âm thanh và truyền luồng tới ElevenLabs, thực hiện chuyển đổi giọng nói thành văn bản theo thời gian thực và gửi đến máy chủ. Máy chủ sử dụng mô hình ngôn ngữ lớn để tạo phản hồi, dùng hàm sendresponse() của SDK để gửi phản hồi trở lại, sau đó ElevenLabs sẽ chuyển đổi phản hồi thành giọng nói tổng hợp để phát lại. Để đơn giản hóa phát triển frontend, ElevenLabs giới thiệu/react và
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim