Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
OpenAI khiến mô hình “há miệng” chửi rủa AI rất đắt
Tác giả: Tô Yang, Tencent Technology
Ngày 8 tháng 5, OpenAI đã bổ sung ba mô hình giọng nói thế hệ mới vào API của mình: GPT‑Realtime‑2 tập trung vào suy luận và đối thoại giọng nói, Realtime‑Translate nổi bật với dịch đa ngôn ngữ theo thời gian thực và Realtime‑Whisper chuyên về chuyển đổi giọng nói thành văn bản.
GPT‑Realtime‑2 là mô hình giọng nói đầu tiên của OpenAI có khả năng suy luận cấp GPT‑5. Nó thể hiện tiến bộ rõ rệt trong các bài kiểm tra tiêu chuẩn: độ chính xác trong đánh giá trí tuệ âm thanh Big Bench Audio đạt 96,6%, tỷ lệ vượt qua trung bình trong đánh giá tuân thủ lệnh Audio MultiChallenge là 48,5%, lần lượt tăng 15,2 điểm phần trăm và 13,8 điểm phần trăm so với thế hệ trước GPT‑Realtime‑1.5.
Dựa trên GPT‑Realtime‑2, AI giọng nói đã tiến hóa từ các câu hỏi đáp đơn giản theo vòng quay sang khả năng lắng nghe liên tục, suy luận, gọi công cụ và hoàn thành nhiệm vụ trong quá trình đối thoại.
Trợ lý giọng nói “có thể “tưởng tượng”
Mục tiêu thiết kế của GPT‑Realtime‑2 là giúp mô hình giọng nói duy trì sự trôi chảy trong đối thoại, đồng thời có khả năng suy luận và hành động để xử lý các công việc phức tạp.
Về độ tự nhiên của đối thoại, mô hình đã giới thiệu cơ chế dẫn dắt bằng câu mở đầu.
Nhà phát triển có thể kích hoạt các câu nhắc ngắn như “Hãy để tôi tra cứu” hoặc “Chờ chút, tôi đang xem xét” để thông báo cho người dùng rằng yêu cầu đã được nhận và đang xử lý trước khi tạo phản hồi chính thức.
Đi kèm đó là ** khả năng gọi công cụ song song và minh bạch công cụ, mô hình có thể gọi nhiều công cụ bên ngoài cùng lúc** và thông báo tiến trình qua giọng nói, ví dụ như nói “Đang kiểm tra lịch của bạn” hoặc “Đang tìm kiếm”, giúp trí tuệ nhân tạo duy trì phản hồi trong quá trình hoàn thành nhiệm vụ thay vì im lặng.
Khi gặp khó khăn trong xử lý, mô hình sẽ chủ động đưa ra các gợi ý như “Hiện tôi gặp chút rắc rối” và cố gắng khôi phục, thay vì im lặng thất bại hoặc cắt ngang cuộc hội thoại.
Ngoài ra, cửa sổ ngữ cảnh của mô hình đã mở rộng từ 32K lên 128K, nghĩa là nó có thể duy trì tính mạch lạc trong các cuộc đối thoại dài hơn, phức tạp hơn, hỗ trợ quy trình làm việc của trí tuệ nhân tạo toàn diện hơn.
Về khả năng ứng dụng trong các lĩnh vực chuyên môn, mô hình đã nâng cao khả năng hiểu các thuật ngữ đặc thù, giữ chính xác các từ chuyên ngành, danh từ riêng và thuật ngữ y học, điều này đặc biệt có giá trị trong môi trường sản xuất. Về mặt biểu cảm, mô hình có khả năng kiểm soát tốt hơn về giọng điệu và phong cách thể hiện, có thể chuyển đổi phù hợp theo tình huống.
Một nâng cấp quan trọng khác là độ suy luận có thể điều chỉnh được. Nhà phát triển có thể chọn từ năm cấp độ minimal, low, medium, high và xhigh (mặc định là low), để cân bằng giữa độ trễ và độ sâu của suy luận.
Không nói dài dòng
GPT‑Realtime‑2 vượt trội hoàn toàn so với thế hệ trước trong các bài kiểm tra
Trong bài đánh giá Big Bench Audio, thử thách khả năng suy luận phức tạp của mô hình giọng nói, GPT‑Realtime‑2 (cấp suy luận cao) đạt độ chính xác 96,6%, trong khi GPT‑Realtime‑1.5 chỉ đạt 81,4%, tăng 15,2 điểm phần trăm.
Trong bài kiểm tra Audio MultiChallenge, đánh giá khả năng đối thoại đa vòng của hệ thống, bao gồm tuân thủ lệnh, tích hợp ngữ cảnh, nhất quán tự thân và xử lý chỉnh sửa tự nhiên, tỷ lệ vượt qua trung bình của GPT‑Realtime‑2 (cấp xHigh) từ GPT‑Realtime‑1.5 là 34,7% lên 48,5%, tăng 13,8 điểm phần trăm.
Thực tế, để đánh giá một mô hình giọng nói có thực sự “thông minh”, không phải qua các cuộc trò chuyện phiến diện, mà qua khả năng xử lý các vấn đề phức tạp đòi hỏi suy luận nhiều lớp.
Lưu ý: Trong tài liệu trình diễn, OpenAI đã đưa ra một bài kiểm tra cụ thể: người dùng mô tả về dự án khởi nghiệp của mình, và hai thế hệ mô hình Realtime đã thực hiện suy luận giọng nói và chuyển thành văn bản tương ứng.
Trường hợp này là một nhiệm vụ phức hợp đòi hỏi khả năng suy luận cao: mô hình cần hiểu mối quan hệ giữa nhiều biến số, như phân bố thời gian khách hàng, chi phí thuê cố định đắt đỏ, và định hướng kinh doanh cà phê chậm rãi, ít quay vòng bàn, và thực hiện suy luận logic trong các giới hạn đó.
GPT‑Realtime‑2 mất 1 phút 4 giây để đưa ra câu trả lời rõ ràng, phân tầng, không chỉ phân tích mâu thuẫn giữa dòng khách và cấu trúc thuê mướn, chỉ ra rằng thời điểm cao điểm quá tập trung có thể làm giảm hiệu quả diện tích, không đủ để trang trải chi phí thuê, mà còn đề xuất các phương án thử nghiệm nhẹ nhàng cụ thể.
Cùng câu hỏi đó, thế hệ trước GPT‑Realtime‑1.5 phản hồi trong 51 giây, nhưng độ sâu rõ ràng không bằng. So sánh này trực tiếp thể hiện sự khác biệt về khả năng suy luận chiến lược giữa hai thế hệ mô hình.
03 Dịch và chuyển đổi âm thanh theo thời gian thực
Ngoài GPT‑Realtime‑2, OpenAI còn ra mắt hai mô hình chuyên dụng phù hợp với các tình huống rõ ràng.
GPT‑Realtime‑Translate tập trung vào dịch đa ngôn ngữ theo thời gian thực, hỗ trợ hơn 70 ngôn ngữ đầu vào, có thể xuất ra 13 ngôn ngữ đích cùng lúc và đồng bộ cung cấp bản ghi chuyển đổi. Các ứng dụng mục tiêu gồm hỗ trợ khách hàng, bán hàng xuyên biên giới, giáo dục, sự kiện và nền tảng sáng tạo dành cho khán giả toàn cầu.
Giám đốc AI của Vimeo, Alberto Parravicini, chia sẻ về các ứng dụng của họ: trong quá trình phát video, tích hợp GPT‑Realtime‑Translate giúp các nhà sáng tạo có thể giao tiếp đa ngôn ngữ ngay khi phát sóng.
Vimeo trình diễn khả năng dịch theo thời gian thực của GPT‑Realtime‑Translate
GPT‑Realtime‑Whisper là một mô hình chuyển đổi giọng nói thành văn bản theo luồng, dành riêng cho các kịch bản ghi chép có độ trễ thấp.
Nó có thể bắt đầu ghi chép ngay khi người nói bắt đầu phát âm, phù hợp cho phụ đề họp trực tiếp, ghi chú lớp học, phụ đề phát thanh và các kịch bản tương tác giọng nói cần tạo ra quy trình làm việc ngay lập tức. Giá trị cốt lõi của nó là chuyển đổi nội dung giọng nói thành dạng văn bản có cấu trúc để các hệ thống xử lý phía sau có thể sử dụng ngay trong quá trình hội thoại.