Bản tin ME News đưa tin, xAI ra mắt hai API âm thanh độc lập: Grok STT và Grok TTS, xuất phát từ cùng một nền tảng âm thanh, hỗ trợ Grok Voice, hệ thống xe hơi Tesla và dịch vụ khách hàng Starlink, v.v. STT cung cấp chuyển đổi hàng loạt qua REST và luồng dữ liệu theo thời gian thực qua WebSocket, có đánh dấu thời gian cấp từ, phân tách người nói, đa kênh và chuẩn hóa ngược văn bản, hỗ trợ hơn 25 ngôn ngữ; TTS hỗ trợ nhãn cảm xúc và nhấn điệu trong nội tuyến. Đồng thời công bố so sánh WER, Grok dẫn đầu trong nhiều kịch bản, chưa có đánh giá lại từ bên thứ ba. Giá cả: xử lý hàng loạt STT 0,10 USD/giờ, luồng dữ liệu 0,20 USD/giờ, TTS 4,20 USD/một triệu ký tự.

MeNews

2026-05-27 10:24:48

Đang tạo bản tóm tắt

ME News Tin tức, ngày 18 tháng 4 (UTC+8), theo theo dõi Beating của Động Trắc, xAI ra mắt hai API âm thanh độc lập: Grok Speech to Text và Grok Text to Speech. Cả hai đều đến từ cùng một hệ thống âm thanh hỗ trợ Grok Voice, hệ thống xe Tesla và dịch vụ khách hàng Starlink, lần này được mở dưới dạng endpoint độc lập, cho phép các nhà phát triển kết nối trực tiếp với các ứng dụng như đại lý thoại, chuyển đổi giọng nói theo thời gian thực, công cụ hỗ trợ truy cập và podcast. STT cung cấp hai chế độ. API REST dùng để chuyển đổi hàng loạt các tệp âm thanh lớn, phản hồi trong mili giây; API WebSocket hướng tới luồng giọng nói theo thời gian thực. Các khả năng đi kèm bao gồm dấu thời gian theo từ, phân tách người nói (diarization), nhận dạng riêng các kênh, và Inverse Text Normalization, tức là tự động định dạng các số, ngày tháng, tiền tệ trong lời nói thành văn bản có cấu trúc chuẩn. Hỗ trợ hơn 25 ngôn ngữ, có thể chuyển đổi linh hoạt trong cuộc trò chuyện. xAI cũng công bố một bộ so sánh tỷ lệ lỗi từ (WER, giá trị thấp hơn càng tốt): trong các kịch bản tổng thể Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; khoảng cách trong nhận dạng thực thể cuộc gọi điện thoại còn lớn hơn, Grok 5.0%, tương ứng ba nhà cung cấp lần lượt là 12.0%, 13.5%, 21.3%. Trong các kịch bản phổ biến như họp, podcast video, cuộc gọi điện thoại, Grok cũng dẫn đầu nhẹ nhàng. Bộ số này do xAI tự kiểm tra và công bố, chưa có kiểm tra lại từ bên thứ ba. Về giá cả, xử lý hàng loạt STT là 0.10 USD/giờ, streaming là 0.20 USD/giờ; TTS là 4.20 USD/1 triệu ký tự. TTS hỗ trợ sử dụng Thẻ Giọng Nói nội tuyến để kiểm soát cảm xúc và nhịp điệu, ví dụ \[laugh], \[sigh], \[whisper], \ (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

11 thích

Phần thưởng
11
11
1
Retweed

Bình luận

Thêm một bình luận

Lime-ColoredStop-LossLine

· 10giờ trước

Xử lý hàng loạt 0.1 đô la/giờ thật hấp dẫn, nhưng giá theo luồng nhân đôi rõ ràng ép buộc bạn phải chuyển sang số lượng lớn

Xem bản gốcTrả lời0

GateUser-83a2dd8a

· 10giờ trước

25+ ngôn ngữ bao phủ, hiệu quả tiếng Trung thế nào đã có người thử chưa

Xem bản gốcTrả lời0

TheProphetOfToast

· 11giờ trước

Thẻ nội tuyến cảm xúc và nhịp điệu, cuối cùng cũng không cần nghe robot đọc bài nữa

Xem bản gốcTrả lời0

GateUser-b665e41c

· 12giờ trước

Tích hợp hệ thống xe Tesla, độ trễ phản hồi thoại khi lái xe có thể giảm xuống còn bao nhiêu mili giây

Xem bản gốcTrả lời0

PunkRiskMgr

· 12giờ trước

Dịch vụ khách hàng của Starlink đã được sử dụng, nhận dạng giọng nói vùng nông thôn đã trở thành mỏ dữ liệu huấn luyện.

Xem bản gốcTrả lời0

ToBeHonest,You'llLose

· 12giờ trước

Từ LLM đến giọng nói, cuộc chiến đa phương thức chính thức bước vào giai đoạn thứ hai

Xem bản gốcTrả lời0

HashbrownHero

· 12giờ trước

Chuyển đổi hàng loạt mức giá này, nhóm phụ đề và chủ podcast có lẽ sẽ chuyển đổi tập thể

Xem bản gốcTrả lời0

GateUser-bee672a5

· 12giờ trước

Chờ đợi cộng đồng mã nguồn mở tái hiện WER, benchmark của xAI thường hay đặt câu hỏi trước

Xem bản gốcTrả lời0

TwoFactorZen

· 12giờ trước

REST + WebSocket song song, nhà phát triển thân thiện tối đa

Xem bản gốcTrả lời0

VintageKeychain

· 12giờ trước

Trên cùng một ngăn âm thanh được cung cấp, trải nghiệm Grok Voice nên có thể đồng bộ nâng cấp

Xem bản gốcTrả lời0

Xem thêm

Chủ đề thịnh hành
Xem thêm
#
StockTradingChallengeUpTo17000U
16.02M Phổ biến
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
832.46K Phổ biến
#
IsraelStrikesIranBTCPlunges
49.81K Phổ biến
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M Phổ biến
#
MicronMarketCapBreaks1Trillion
45.14K Phổ biến

Đã ghim

sơ đồ trang web

xAI mở API âm thanh STT và TTS của Grok, tỷ lệ lỗi từ tổng thể của STT giảm xuống còn 6.9%

Chủ đề thịnh hành

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Đã ghim