ME News Tin tức, ngày 18 tháng 4 (UTC+8), theo theo dõi Beating của Động Chấn, xAI ra mắt hai API âm thanh độc lập: Grok Speech to Text và Grok Text to Speech. Cả hai đều đến từ cùng một hệ thống âm thanh hỗ trợ cho Grok Voice, hệ thống xe của Tesla và dịch vụ khách hàng Starlink, lần này được mở rộng dưới dạng endpoint độc lập, cho phép các nhà phát triển kết nối trực tiếp với các ứng dụng như trung gian thoại, chuyển đổi giọng nói theo thời gian thực, công cụ hỗ trợ truy cập và podcast. STT cung cấp hai chế độ. API REST dùng để chuyển đổi hàng loạt các tệp âm thanh lớn, phản hồi trong mili giây; API WebSocket hướng tới dòng âm thanh trực tiếp. Các khả năng đi kèm bao gồm dấu thời gian theo từ, phân tách người nói (diarization), nhận dạng theo kênh riêng biệt, và Inverse Text Normalization, tức là tự động định dạng các số, ngày tháng, tiền tệ trong lời nói thành văn bản có cấu trúc chuẩn. Hỗ trợ hơn 25 ngôn ngữ, có thể chuyển đổi liền mạch trong cuộc đối thoại. xAI cũng công bố một bộ so sánh tỷ lệ lỗi từ (WER, giá trị thấp hơn càng tốt): trong các kịch bản tổng thể Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; khoảng cách trong nhận dạng thực thể cuộc gọi điện thoại còn lớn hơn, Grok 5.0%, tương ứng ba nhà cung cấp lần lượt là 12.0%, 13.5%, 21.3%. Trong các kịch bản phổ biến như họp, podcast video, cuộc gọi điện thoại, Grok cũng dẫn đầu nhẹ nhàng. Bộ số này do xAI tự kiểm tra và công bố, chưa có kiểm tra lại của bên thứ ba. Về giá cả, xử lý hàng loạt STT là 0,10 USD/giờ, streaming là 0,20 USD/giờ; TTS là 4,20 USD/1 triệu ký tự. TTS hỗ trợ sử dụng Thẻ Giọng Nói nội tuyến để kiểm soát cảm xúc và nhịp điệu, ví dụ \[laugh], \[sigh], \[whisper], \ (Nguồn: BlockBeats)

XAI-0,15%

GROK-6,88%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

7 thích

Phần thưởng
7
7
Đăng lại
Retweed

Bình luận

Thêm một bình luận

BudgetValidator

· 14phút trước

Hạ tầng thoại bắt đầu tiêu chuẩn hóa, có lợi cho các nhà phát triển nhỏ và trung bình

Xem bản gốcTrả lời0

MirrorBallGazingAtTheSky

· 2giờ trước

Cùng một bộ stack hỗ trợ ba kịch bản, Musk chơi tái sử dụng quá đỉnh

Xem bản gốcTrả lời0

AirdropSidequest

· 3giờ trước

WebSocket phù hợp cho luồng dữ liệu, REST phù hợp cho lưu trữ, thiết kế hợp lý

Xem bản gốcTrả lời0

CandlewickKid

· 7giờ trước

xAI cuối cùng đã tách phần ngăn xếp thoại ra, các nhà phát triển vui mừng

Xem bản gốcTrả lời0

RetroRadioSignal

· 7giờ trước

Grok đã làm về STT với chế độ kết hợp REST + WebSocket, cả xử lý hàng loạt và thời gian thực đều được chăm chút, khá tỉ mỉ

Xem bản gốcTrả lời0

PatinaTradingBell

· 7giờ trước

Cây dựng âm thanh mà Tesla và Starlink đều đang sử dụng, độ tin cậy chắc chắn đã trải qua thử nghiệm

Xem bản gốcTrả lời0

OracleBabysitter

· 7giờ trước

Công cụ hỗ trợ truy cập +1, đây mới là nhiệt độ mà công nghệ nên có

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
StockTradingChallengeUpTo17000U
16.23M Phổ biến
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
817.54K Phổ biến
#
IsraelStrikesIranBTCPlunges
49.57K Phổ biến
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Phổ biến
#
MicronMarketCapBreaks1Trillion
36.87K Phổ biến

Đã ghim

sơ đồ trang web

xAI mở rộng API âm thanh Grok STT và TTS, tỷ lệ lỗi từ toàn bộ của STT giảm còn 6.9%

Chủ đề thịnh hành

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Đã ghim