Thông tin từ ME News, ngày 18 tháng 4 (UTC+8), xAI gần đây đã chính thức ra mắt hai API âm thanh độc lập là Grok chuyển đổi giọng nói thành văn bản (STT) và Grok chuyển đổi văn bản thành giọng nói (TTS). Grok STT cung cấp dịch vụ chuyển đổi chính xác cao, độ trễ thấp, hỗ trợ xử lý hàng loạt qua API REST và chuyển đổi theo dòng thời gian theo thời gian thực qua API WebSocket, đồng thời có các chức năng như gán thời gian theo từ, phân tách người nói, hỗ trợ đa kênh và chuẩn hóa ngược văn bản thông minh. Trong bài viết đề cập rằng, trong các bài kiểm tra chuẩn trong lĩnh vực cuộc gọi điện thoại, họp, video/podcast và các lĩnh vực khác, tỷ lệ lỗi từ từ của dịch vụ này vượt trội so với các mô hình thương mại chủ đạo như ElevenLabs, Deepgram và AssemblyAI. Dịch vụ này hỗ trợ hơn 25 ngôn ngữ, giá là 0,10 USD mỗi giờ xử lý hàng loạt và 0,20 USD mỗi giờ xử lý theo dòng. Grok TTS có thể tạo ra giọng nói nhanh, tự nhiên và giàu cảm xúc, hỗ trợ kiểm soát chi tiết qua các nhãn giọng nói đơn giản, với giá 4,20 USD cho mỗi 1 triệu ký tự. Cả hai API đều dựa trên cùng công nghệ hỗ trợ Grok Voice, xe Tesla và khách hàng Starlink. (Nguồn: InFoQ)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GatePreIPOsLaunchesWithSpaceX
206.96K Phổ biến
#
Gate13thAnniversaryLive
558.57K Phổ biến
#
IsraelStrikesIranBTCPlunges
30.16K Phổ biến
#
AltcoinsRallyStrong
7.33M Phổ biến
#
AnthropicvsOpenAIHeatsUp
1.07M Phổ biến

Ghim

sơ đồ trang web

xAI ra mắt API Chuyển đổi giọng nói thành văn bản và văn bản thành giọng nói của Grok

Chủ đề thịnh hành

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Ghim