Thích âm thanh của Tesla? xAI chính thức mở API giọng nói Grok, TTS giá 4,2 USD mỗi triệu ký tự, độ chính xác vượt qua ElevenLabs

robot
Đang tạo bản tóm tắt

xAI chính thức ra mắt API chuyển đổi giọng nói thành văn bản (STT) và chuyển đổi văn bản thành giọng nói (TTS) độc lập trong tuần này, bộ công nghệ này đã hoạt động thực tế trong Grok Voice, xe Tesla và hệ thống dịch vụ khách hàng Starlink. Giá STT là 0,10 đô la mỗi giờ theo batch, 0,20 đô la mỗi giờ theo luồng, hỗ trợ hơn 25 ngôn ngữ.
(Phần trước: Beta Grok 4.3 mở cho người đăng ký Heavy! Elon Musk: Phiên bản flagship thực sự hoàn thành sau 5 ngày đào tạo ban đầu)
(Bổ sung nền tảng: Google ra mắt Gemini 3.1 Flash TTS: Nhãn âm thanh giúp AI lồng tiếng sinh động hơn, hỗ trợ hơn 70 ngôn ngữ, Google AI Studio miễn phí trải nghiệm)

Mục lục bài viết

Chuyển đổi

  • STT: Dấu thời gian theo từ + Phân biệt người nói, chuyển đổi hàng loạt chỉ 0,1 đô la mỗi giờ
  • TTS: 5 phong cách giọng nói + Nhãn giọng nói, 4,2 đô la mỗi triệu ký tự
  • Cùng bộ công nghệ đã vận hành Tesla và Starlink

Cùng một bộ công nghệ giúp xe Tesla có thể nói chuyện, giúp dịch vụ khách hàng Starlink phản hồi người dùng bằng giọng nói, nay đã được mở API ra ngoài. xAI ngày 17 chính thức công bố ra mắt API chuyển đổi giọng nói thành văn bản (STT) và chuyển đổi văn bản thành giọng nói (TTS) độc lập, cho phép các nhà phát triển bên ngoài gọi trực tiếp bộ hạ tầng giọng nói đã hoạt động trong các sản phẩm của xAI.

STT: Dấu thời gian theo từ + Phân biệt người nói, chuyển đổi hàng loạt chỉ 0,1 đô la mỗi giờ

Theo mô tả chính thức, API Grok STT cung cấp hai chế độ truy cập: qua REST API để xử lý theo batch, và qua WebSocket API để truyền phát thời gian thực với độ trễ thấp. Về giá cả, xử lý batch là 0,10 đô la mỗi giờ, truyền phát là 0,20 đô la mỗi giờ, so với các đối thủ cạnh tranh chính như ElevenLabs và Deepgram, giá này có lợi thế rõ rệt.

Về chức năng, Grok STT hỗ trợ hơn 25 ngôn ngữ, có dấu thời gian theo từ, phân biệt người nói (speaker diarization), cùng âm thanh đa kênh và chuẩn hóa ngược thông minh. Phù hợp cho các doanh nghiệp cần chuyển đổi cuộc họp, ghi chép pháp lý và y tế, nhật ký cuộc gọi dịch vụ khách hàng.

Trong các thử nghiệm nhận dạng thực thể, Grok STT thể hiện ưu thế. Trong các cuộc gọi điện thoại nhận diện tên, tài khoản, ngày tháng, tỷ lệ lỗi của Grok STT là 5,0%, trong khi ElevenLabs là 12,0%, Deepgram là 13,5%, AssemblyAI lên tới 21,3%.

TTS: 5 phong cách giọng nói + Nhãn giọng nói, 4,2 đô la mỗi triệu ký tự

API Grok TTS cung cấp năm kiểu giọng nói đa dạng: Ara (giọng nữ, ấm áp, thân thiện), Eve (giọng nữ, năng động, tích cực), Leo (giọng nam, uy quyền, mạnh mẽ), Rex (giọng nam, tự tin, rõ ràng), Sal (trung tính, lưu loát, cân đối).

API tự động phát hiện ngôn ngữ đầu vào, hỗ trợ hơn 20 ngôn ngữ gốc, và điều khiển phát âm qua mã ngôn ngữ BCP-47.

Định dạng âm thanh xuất ra gồm MP3, WAV, PCM (Linear16), G.711 μ-law và G.711 A-law, hai định dạng phổ biến trong hệ thống điện thoại, cho thấy xAI đã có kế hoạch tích hợp với ngành viễn thông.

Chức năng đặc biệt của API TTS là “Nhãn giọng nói”, cho phép nhà phát triển chèn lệnh trong văn bản để kiểm soát chính xác các khoảng dừng, tiếng cười, thì thầm, nhấn mạnh giọng điệu, tốc độ và cao độ, giúp giọng tổng hợp gần gũi hơn với cách thể hiện tự nhiên của con người. Giá là 4,20 đô la mỗi triệu ký tự.

Cùng bộ công nghệ đã vận hành Tesla và Starlink

xAI nhấn mạnh rằng, hai API này không phải công nghệ mới hoàn toàn, mà là dựa trên hạ tầng đã thực sự hoạt động trong Grok Voice, tương tác giọng nói trong xe Tesla, và hệ thống hỗ trợ khách hàng Starlink.

Hạ tầng này lần đầu tiên xuất hiện vào cuối năm 2025 dưới dạng API Grok Voice Agent, cung cấp khả năng đối thoại giọng nói trực tiếp, và đạt vị trí số 1 trong bài kiểm tra âm thanh Big Bench Audio, phản hồi âm thanh trong vòng chưa đầy 1 giây, nhanh gấp khoảng 5 lần so với các đối thủ cạnh tranh gần nhất.

Việc ra mắt các endpoint STT và TTS độc lập lần này, tương đương tách rời các thành phần của hệ thống giọng nói tích hợp, giúp các nhà phát triển có thể tùy ý kết hợp theo nhu cầu.

XAI-8,95%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim