xAI mở API âm thanh Groke STT và TTS, tỷ lệ lỗi từ tổng thể của STT giảm xuống còn 6.9%

robot
Đang tạo bản tóm tắt
Thông tin ME News, ngày 18 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, xAI ra mắt hai API âm thanh độc lập: Grok Speech to Text và Grok Text to Speech. Cả hai đều đến từ cùng một hệ thống âm thanh hỗ trợ cho Grok Voice, hệ thống xe của Tesla và dịch vụ khách hàng Starlink, lần này được mở rộng dưới dạng endpoint độc lập, cho phép các nhà phát triển kết nối trực tiếp với các ứng dụng như trung gian thoại, chuyển đổi giọng nói theo thời gian thực, công cụ hỗ trợ truy cập và podcast. STT cung cấp hai chế độ. API REST dùng để chuyển đổi hàng loạt các tệp âm thanh lớn, phản hồi trong mili giây; API WebSocket hướng tới luồng giọng nói theo thời gian thực. Các khả năng đi kèm bao gồm dấu thời gian theo từ, phân tách người nói (diarization), nhận dạng riêng biệt nhiều kênh, và Inverse Text Normalization, tức tự động định dạng các số, ngày tháng, tiền tệ trong lời nói thành văn bản có cấu trúc chuẩn. Hỗ trợ hơn 25 ngôn ngữ, có thể chuyển đổi linh hoạt trong cuộc đối thoại. xAI cũng công bố một bộ so sánh tỷ lệ lỗi từ (WER, giá trị thấp hơn càng tốt): trong các kịch bản tổng thể, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; khoảng cách trong nhận dạng thực thể cuộc gọi điện thoại còn lớn hơn, Grok 5.0%, tương ứng với ba nhà cung cấp lần lượt là 12.0%, 13.5%, 21.3%. Trong các kịch bản phổ biến như họp, podcast video, cuộc gọi điện thoại, Grok cũng dẫn đầu nhẹ nhàng. Bộ số liệu này do xAI tự kiểm tra và công bố, chưa có kiểm tra lại từ bên thứ ba. Về giá cả, xử lý hàng loạt STT là 0.10 USD/giờ, streaming là 0.20 USD/giờ; TTS là 4.20 USD/1 triệu ký tự. TTS hỗ trợ sử dụng Thẻ Giọng Nói nội tuyến để kiểm soát cảm xúc và nhịp điệu, ví dụ \[laugh], \[sigh], \[whisper], \ (Nguồn: BlockBeats)
XAI-0,15%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
GasFeesAfterTheRain
· 22phút trước
TTS 4.2 dao/một triệu ký tự, tính theo tiếng Trung khoảng 300 từ/một đồng? Rẻ hơn hay đắt hơn ElevenLabs? Có người đã tính chưa.
Xem bản gốcTrả lời0
SudoSatoshi
· 12giờ trước
Phủ sóng đa ngôn ngữ hơn 25+, nhưng chất lượng các ngôn ngữ thiểu số thì sao?
WER trung bình khá, các ngôn ngữ dài đuôi có thể vẫn là thảm họa.
Xem bản gốcTrả lời0
AirdropUnderTheNeonBridge
· 12giờ trước
Nhãn nội tuyến cảm xúc và nhịp điệu? TTS cuối cùng không còn là máy đọc kịch bản nữa, có thể sáng tạo khi làm sách nói hoặc hội thoại NPC trong trò chơi.
Xem bản gốcTrả lời0
AirdropCartographer
· 12giờ trước
Đa kênh + phân tách người nói, công cụ chuyển đổi ghi âm cuộc họp thành văn bản, nhưng chi phí luồng 0.2 đô la/giờ, tính ra cuộc họp dài cũng không rẻ.
Xem bản gốcTrả lời0
PerpPulse
· 12giờ trước
Grok Voice、Hệ thống âm thanh trên xe Tesla、Starlink dịch vụ khách hàng đều sử dụng cùng một bộ nền tảng âm thanh, Elon Musk ngày càng chơi tròn vòng khép kín của hệ sinh thái này một cách điêu luyện.
Xem bản gốcTrả lời0
MintLaterMaybe
· 12giờ trước
Chuẩn hóa ngược văn bản là gì? Chuyển số thành số Ả Rập? Chức năng này rất quan trọng trong xử lý hậu kỳ của chuyển đổi giọng nói, giúp tránh việc phải tự viết regex.
Xem bản gốcTrả lời0
CliffsideAncientPineAndRolling
· 12giờ trước
xAI đợt này phối hợp API âm thanh đánh rất mạnh, STT theo dòng 0.2 đô la/giờ, TTS 4.2 đô la/một triệu ký tự, chiến lược định giá rõ ràng hướng tới thương mại quy mô lớn.
Xem bản gốcTrả lời0