xAI ra mắt API Chuyển đổi giọng nói sang văn bản và văn bản sang giọng nói Grok

robot
Đang tạo bản tóm tắt
ME News Tin tức, ngày 18 tháng 4 (UTC+8), xAI gần đây đã chính thức ra mắt hai API âm thanh độc lập là Grok chuyển đổi giọng nói thành văn bản (STT) và Grok chuyển đổi văn bản thành giọng nói (TTS). Grok STT cung cấp dịch vụ chuyển đổi chính xác cao, độ trễ thấp, hỗ trợ xử lý hàng loạt qua API REST và chuyển đổi luồng theo thời gian thực qua API WebSocket, đồng thời có các chức năng như gán thời gian theo từ, phân tách người nói, hỗ trợ đa kênh và chuẩn hóa ngược văn bản thông minh. Trong bài viết đề cập rằng, trong các bài kiểm tra chuẩn trong lĩnh vực cuộc gọi điện thoại, họp, video/podcast và các lĩnh vực khác, tỷ lệ lỗi từ vựng của nó vượt trội so với các mô hình thương mại chính như ElevenLabs, Deepgram và AssemblyAI. Dịch vụ này hỗ trợ hơn 25 ngôn ngữ, giá là 0,10 USD mỗi giờ xử lý hàng loạt và 0,20 USD mỗi giờ xử lý luồng. Grok TTS có thể tạo ra giọng nói nhanh, tự nhiên và giàu cảm xúc, hỗ trợ kiểm soát chi tiết qua các nhãn giọng nói đơn giản, với giá 4,20 USD cho mỗi 1 triệu ký tự. Cả hai API đều dựa trên cùng công nghệ hỗ trợ Grok Voice, xe Tesla và khách hàng Starlink. (Nguồn: InFoQ)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • 1
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
GateUser-99725296
· 3giờ trước
Liệu mức giá này có thể cạnh tranh được không, hãy xem Azure và AWS phản ứng như thế nào
Xem bản gốcTrả lời0
0xLateBreakfast
· 3giờ trước
Giá cho hàng loạt và theo luồng chênh nhau gấp đôi, doanh nghiệp cần tính toán kỹ lưỡng.
Xem bản gốcTrả lời0
RiskOffRina
· 3giờ trước
Hỗ trợ đa kênh rất quan trọng đối với việc ghi âm cuộc họp, cuối cùng cũng không cần tự căn chỉnh nữa
Xem bản gốcTrả lời0
WalletHealthInspector
· 3giờ trước
Grok Voice sử dụng chính hai API này đúng không, cuối cùng đã tách ra rồi
Xem bản gốcTrả lời0
MosaicBowtieRealm
· 3giờ trước
Những nhãn kiểm soát chi tiết có thể kiểm soát những tham số nào, tốc độ nói, âm điệu hay cảm xúc
Xem bản gốcTrả lời0
  • Đã ghim