xAI Ra mắt API Giọng nói Grok, giảm giá cạnh tranh tới 60%

Zach Anderson

18 Tháng 4, 2026 00:53

Elon Musk’s xAI phát hành API Chuyển Đổi Giọng Nói Sang Văn Bản và Văn Bản Sang Giọng Nói với giá 0,10 đô la/giờ, tuyên bố có tỷ lệ lỗi thấp nhất trong các tiêu chuẩn chuyển đổi doanh nghiệp.

Elon Musk’s xAI đã ra mắt hai API âm thanh độc lập vào ngày 17 tháng 4, định vị công nghệ giọng nói của Grok như một đối thủ trực tiếp của ElevenLabs, Deepgram và AssemblyAI với mức giá cạnh tranh.

API Chuyển Đổi Giọng Nói Sang Văn Bản của Grok có giá 0,10 đô la mỗi giờ cho xử lý hàng loạt và 0,20 đô la mỗi giờ cho phát trực tiếp. Văn Bản Sang Giọng Nói có giá 4,20 đô la cho mỗi triệu ký tự. Cả hai đều dựa trên hạ tầng tương tự đang vận hành các xe Tesla và dịch vụ khách hàng Starlink.

Các tuyên bố về tiêu chuẩn cần xem xét kỹ lưỡng

Tỷ lệ lỗi từ các công bố của xAI cho thấy một câu chuyện thú vị. Về nhận diện thực thể trong cuộc gọi điện thoại—như tên, số tài khoản, ngày tháng—Grok STT tuyên bố tỷ lệ lỗi 5,0% so với ElevenLabs 12,0%, Deepgram 13,5%, và AssemblyAI 21,3%. Đó là một khoảng cách đáng kể nếu giữ nguyên trong thực tế sản xuất.

Công ty đã chứng minh điều này qua một trường hợp thử nghiệm khó: phiên âm các tên xứ Wales như “Anghared Llewelyn Bowen” và “Oisin MacGiolla Phadraig” cùng với chi tiết vay thế chấp. Grok đã làm chính xác mà không mắc lỗi nào. Các mô hình cạnh tranh gặp khó khăn trong phát âm và định dạng ngày tháng không nhất quán.

Phiên âm video và podcast cho thấy sự cạnh tranh chặt chẽ hơn—Grok và ElevenLabs hòa nhau với tỷ lệ lỗi 2,4%, trong khi Deepgram và AssemblyAI xếp sau lần lượt là 3,0% và 3,2%.

Các tính năng kỹ thuật dành cho nhà phát triển

Ngoài việc chuyển đổi chính xác, xAI còn tích hợp các tính năng mà khách hàng doanh nghiệp thực sự cần: dấu thời gian theo từ, phân biệt người nói qua nhiều kênh âm thanh, và hỗ trợ hơn 25 ngôn ngữ với khả năng chuyển đổi mượt mà.

Tính năng Chuẩn hóa Ngữ nghĩa Ngược tự động chuyển đổi các số, ngày tháng và tiền tệ nói thành định dạng phù hợp. “Four one four five five five one two three four” thành số điện thoại. “Six ninety-nine” thành $6.99. Chi tiết nhỏ, nhưng giúp loại bỏ các rắc rối hậu xử lý.

Văn Bản Sang Giọng Nói có các thẻ nội tuyến để kiểm soát ngữ điệu—thì thầm, cười, thở dài, nhấn mạnh, điều chỉnh nhịp điệu. Nhà phát triển có thể thêm sắc thái cảm xúc mà không cần phải xử lý các định dạng âm thanh phức tạp.

Bối cảnh chiến lược

Sự ra mắt này theo sau việc xAI mua lại X Corp vào tháng 3 năm 2025 và diễn ra khi công ty mở rộng các đối tác hạ tầng. Chỉ hai ngày trước khi công bố API, có tin đồn rằng xAI dự định cung cấp năng lực tính toán cho Cursor, startup lập trình AI.

Siêu máy tính Colossus, hoạt động từ tháng 12 năm 2024, cung cấp sức mạnh nền tảng. xAI dường như đang thương mại hóa năng lực đó qua nhiều lĩnh vực—AI doanh nghiệp, công cụ dành cho nhà phát triển, và giờ đây là API giọng nói.

Đối với các nhà phát triển xây dựng trợ lý giọng nói hoặc công cụ chuyển đổi, mức giá này cạnh tranh mạnh so với các đối thủ đã có. Liệu các tuyên bố về độ chính xác của Grok có tồn tại trong thực tế vận hành quy mô lớn hay không vẫn là câu hỏi mở. Tài liệu và giới hạn tốc độ truy cập có thể xem qua bảng điều khiển API của xAI để những ai sẵn sàng thử nghiệm.

Nguồn hình ảnh: Shutterstock

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim