xAI ra mắt API Chuyển đổi giọng nói sang văn bản và văn bản sang giọng nói Grok

robot
Đang tạo bản tóm tắt
ME News Tin tức, ngày 18 tháng 4 (UTC+8), xAI gần đây đã chính thức ra mắt hai API âm thanh độc lập là Grok chuyển đổi giọng nói thành văn bản (STT) và Grok chuyển đổi văn bản thành giọng nói (TTS). Grok STT cung cấp dịch vụ chuyển đổi chính xác cao, độ trễ thấp, hỗ trợ xử lý hàng loạt qua API REST và chuyển đổi theo dòng thời gian theo thời gian thực qua API WebSocket, đồng thời có các chức năng như gắn nhãn thời gian theo từ, phân tách người nói, hỗ trợ đa kênh và chuẩn hóa ngược văn bản thông minh. Trong bài viết đề cập rằng, trong các bài kiểm tra tiêu chuẩn trong các lĩnh vực như cuộc gọi điện thoại, họp, video/podcast, tỷ lệ lỗi từ của nó vượt trội so với các mô hình thương mại chủ đạo như ElevenLabs, Deepgram và AssemblyAI. Dịch vụ này hỗ trợ hơn 25 ngôn ngữ, giá là 0,10 USD mỗi giờ xử lý hàng loạt, 0,20 USD mỗi giờ xử lý theo dòng. Grok TTS có thể tạo ra giọng nói nhanh chóng, tự nhiên và giàu cảm xúc, hỗ trợ kiểm soát chi tiết qua các nhãn giọng nói đơn giản, giá là 4,20 USD cho mỗi 1 triệu ký tự. Cả hai API đều dựa trên cùng công nghệ hỗ trợ Grok Voice, xe Tesla và khách hàng Starlink. (Nguồn: InFoQ)
XAI-1,62%
GROK-2,99%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • 3
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
RiskParachute
· 8giờ trước
Đợi đã, TTS có thể kiểm soát chi tiết qua nhãn không? Vậy cảm xúc và ngữ điệu đều có thể điều chỉnh?
Xem bản gốcTrả lời0
BitByBitBenny
· 9giờ trước
Dấu thời gian cấp từ và phân tách người nói, là công cụ tuyệt vời để ghi chú cuộc họp, muốn thử xem sao
Xem bản gốcTrả lời0
FrictionlessFred
· 9giờ trước
Grok Voice、特斯拉、Starlink cùng chia sẻ một bộ công nghệ, Elon Musk đã hiểu rõ vòng khép kín của hệ sinh thái này
Xem bản gốcTrả lời0
GoldfishUnderTheIce
· 9giờ trước
逆文本规范化 là công nghệ đen gì, chuyển ngữ nói thành văn bản chuẩn?
Xem bản gốcTrả lời0
Don'tMessWithSlippage.
· 9giờ trước
Bao phủ 25 ngôn ngữ, hiệu quả tiếng Trung thế nào đã có người thử nghiệm chưa?
Xem bản gốcTrả lời0
YieldBonsai
· 9giờ trước
4,20 USD/triệu ký tự, con số này cố ý phải không
Xem bản gốcTrả lời0
IOnlyTrustOn-ChainData.
· 9giờ trước
xAI đợt này giá API âm thanh khá cao, 0.1 đô la/giờ cho số lượng lớn, cảm giác sẽ khiến nhiều nhà cung cấp ASR phải cạnh tranh khốc liệt hơn
Xem bản gốcTrả lời0
  • Đã ghim