xAI ra mắt API Chuyển đổi giọng nói thành văn bản và văn bản thành giọng nói của Grok

robot
Đang tạo bản tóm tắt

Thông tin từ ME News, ngày 18 tháng 4 (UTC+8), xAI gần đây đã chính thức ra mắt hai API âm thanh độc lập là Grok chuyển đổi giọng nói thành văn bản (STT) và Grok chuyển đổi văn bản thành giọng nói (TTS). Grok STT cung cấp dịch vụ chuyển đổi chính xác cao, độ trễ thấp, hỗ trợ xử lý hàng loạt qua API REST và chuyển đổi theo dòng thời gian theo thời gian thực qua API WebSocket, đồng thời có các chức năng như gán thời gian theo từ, phân tách người nói, hỗ trợ đa kênh và chuẩn hóa ngược văn bản thông minh. Trong bài viết đề cập rằng, trong các bài kiểm tra chuẩn trong lĩnh vực cuộc gọi điện thoại, họp, video/podcast và các lĩnh vực khác, tỷ lệ lỗi từ từ của dịch vụ này vượt trội so với các mô hình thương mại chủ đạo như ElevenLabs, Deepgram và AssemblyAI. Dịch vụ này hỗ trợ hơn 25 ngôn ngữ, giá là 0,10 USD mỗi giờ xử lý hàng loạt và 0,20 USD mỗi giờ xử lý theo dòng. Grok TTS có thể tạo ra giọng nói nhanh, tự nhiên và giàu cảm xúc, hỗ trợ kiểm soát chi tiết qua các nhãn giọng nói đơn giản, với giá 4,20 USD cho mỗi 1 triệu ký tự. Cả hai API đều dựa trên cùng công nghệ hỗ trợ Grok Voice, xe Tesla và khách hàng Starlink. (Nguồn: InFoQ)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim