Grok STT về thời gian cấp độ từ và phân tách người nói là nhu cầu thiết yếu cho nhóm chỉnh sửa podcast, nhưng dữ liệu WER tự nói tự diễn, chờ đợi kiểm tra lại từ bên thứ ba.

GROK-5,89%
STT-4,85%
Xem bản gốc
MeNews
xAI mở rộng API âm thanh Grok STT và TTS, tỷ lệ lỗi từ toàn bộ của STT giảm xuống còn 6.9%
Bản tin ME News đưa tin, xAI ra mắt hai API âm thanh độc lập: Grok STT và Grok TTS, xuất phát từ cùng một nền tảng âm thanh, hỗ trợ Grok Voice, hệ thống xe hơi Tesla và dịch vụ khách hàng Starlink, v.v.
STT cung cấp chuyển đổi hàng loạt qua REST và luồng dữ liệu theo thời gian thực qua WebSocket, có đánh dấu thời gian cấp từ, phân tách người nói, đa kênh và chuẩn hóa ngược văn bản, hỗ trợ hơn 25 ngôn ngữ; TTS hỗ trợ nhãn cảm xúc và nhấn điệu trong nội tuyến.
Đồng thời công bố so sánh WER, Grok dẫn đầu trong nhiều kịch bản, chưa có đánh giá lại từ bên thứ ba.
Giá cả: xử lý hàng loạt STT 0,10 USD/giờ, luồng dữ liệu 0,20 USD/giờ, TTS 4,20 USD/một triệu ký tự.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 1
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
GateUser-dd0c6b87
· 9giờ trước
Chẳng hề giống nhau chút nào, đừng lừa gạt người khác
Xem bản gốcTrả lời0
  • Đã ghim