xAI mở rộng API âm thanh Grok STT và TTS, tỷ lệ lỗi từ toàn bộ của STT giảm xuống còn 6.9%

robot
Đang tạo bản tóm tắt
ME News Tin tức, ngày 18 tháng 4 (UTC+8), theo theo dõi Beating của Động Chấn, xAI ra mắt hai API âm thanh độc lập: Grok Speech to Text và Grok Text to Speech. Cả hai đều đến từ cùng một hệ thống âm thanh hỗ trợ Grok Voice, hệ thống xe Tesla và dịch vụ khách hàng Starlink, lần này được mở dưới dạng endpoint độc lập, cho phép các nhà phát triển kết nối trực tiếp với các ứng dụng như trung gian thoại, chuyển đổi giọng nói theo thời gian thực, công cụ hỗ trợ truy cập và podcast. STT cung cấp hai chế độ. API REST dùng để chuyển đổi hàng loạt các tệp âm thanh lớn, phản hồi trong mili giây; API WebSocket hướng tới luồng giọng nói theo thời gian thực. Các khả năng đi kèm bao gồm dấu thời gian theo từ, phân tách người nói (diarization), nhận diện đa kênh riêng biệt, và Inverse Text Normalization, tức tự động định dạng các số, ngày tháng, tiền tệ trong lời nói thành văn bản có cấu trúc chuẩn. Hỗ trợ hơn 25 ngôn ngữ, có thể chuyển đổi linh hoạt trong cuộc trò chuyện. xAI cũng công bố một bộ so sánh tỷ lệ lỗi từ (WER, giá trị thấp hơn càng tốt): trong các kịch bản tổng thể Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; khoảng cách trong nhận diện thực thể cuộc gọi điện thoại còn lớn hơn, Grok 5.0%, tương ứng ba nhà cung cấp lần lượt là 12.0%, 13.5%, 21.3%. Trong các kịch bản phổ biến như họp, podcast video, cuộc gọi điện thoại, Grok cũng dẫn đầu nhẹ nhàng. Bộ số này do xAI tự kiểm tra và công bố, chưa có kiểm tra lại từ bên thứ ba. Về giá cả, xử lý hàng loạt STT là 0.10 USD/giờ, streaming là 0.20 USD/giờ; TTS là 4.20 USD/1 triệu ký tự. TTS hỗ trợ sử dụng Thẻ Giọng Nói nội tuyến để kiểm soát cảm xúc và nhịp điệu, ví dụ \[laugh\], \[sigh\], \[whisper\], \ (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 11
  • 3
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
GateUser-634ae966
· 44phút trước
Hỗ trợ đa kênh có nghĩa là có thể nhận diện theo từng kênh phải không, có thể sử dụng trong cảnh phòng thu không?
Xem bản gốcTrả lời0
InstantNoodle-LevelResearcher
· 12giờ trước
Chuyển đổi hàng loạt bằng REST, sử dụng WebSocket cho thời gian thực, thiết kế kiến trúc khá thực tế
Xem bản gốcTrả lời0
GateUser-f85bc167
· 12giờ trước
Chờ một điểm số thực sự, chỉ cần xem thử benchmark của xAI thôi.
Xem bản gốcTrả lời0
MarginMom
· 13giờ trước
Grok TTS hỗ trợ nhãn cảm xúc khá thú vị, sau này AI lồng tiếng có thể mang giọng khóc rồi chứ?
Xem bản gốcTrả lời0
GateUser-f92ba9fa
· 13giờ trước
25+ ngôn ngữ bao phủ, hiệu quả tiếng Trung thế nào đã có người thử chưa
Xem bản gốcTrả lời0
Lightning-FastComposure
· 13giờ trước
Chuẩn hóa ngược văn bản là công nghệ đen gì vậy, có anh hiểu biết nào mở rộng giải thích không?
Xem bản gốcTrả lời0
HaiyanColdWallet
· 13giờ trước
Dấu thời gian cấp từ + phân tách người nói, ghi chú cuộc họp khiến các đảng viên vui mừng
Xem bản gốcTrả lời0
QuantsAndCats
· 13giờ trước
4.2 đô la/một triệu ký tự TTS, rẻ hơn hay đắt hơn ElevenLabs?
Xem bản gốcTrả lời0
AmberTeaSwirl
· 13giờ trước
Chuyển đổi giọng nói theo dòng 0,2 USD/giờ, phù hợp cho các cảnh phát trực tiếp có phụ đề thời gian thực
Xem bản gốcTrả lời0
MultisigOnRocks
· 13giờ trước
Cùng một ngăn âm thanh được cung cấp cho Grok Voice, Tesla, Starlink, Elon Musk đã hoàn thiện vòng khép kín hệ sinh thái.
Xem bản gốcTrả lời0
Xem thêm