Ngày 8 tháng 5, OpenAI đã bổ sung ba mô hình giọng nói thế hệ mới vào API của mình: GPT‑Realtime‑2 tập trung vào suy luận và đối thoại giọng nói, Realtime‑Translate nổi bật với dịch đa ngôn ngữ theo thời gian thực và Realtime‑Whisper chuyên về chuyển đổi giọng nói thành văn bản.

GPT‑Realtime‑2 là mô hình giọng nói đầu tiên của OpenAI có khả năng suy luận cấp GPT‑5. Nó thể hiện tiến bộ rõ rệt trong các bài kiểm tra tiêu chuẩn: độ chính xác trong đánh giá trí tuệ âm thanh Big Bench Audio đạt 96,6%, tỷ lệ vượt qua trung bình trong đánh giá tuân thủ lệnh Audio MultiChallenge là 48,5%, lần lượt tăng 15,2 điểm phần trăm và 13,8 điểm phần trăm so với thế hệ trước GPT‑Realtime‑1.5.

Dựa trên GPT‑Realtime‑2, AI giọng nói đã tiến hóa từ các câu hỏi đáp đơn giản theo vòng quay sang khả năng lắng nghe liên tục, suy luận, gọi công cụ và hoàn thành nhiệm vụ trong quá trình đối thoại.

Trợ lý giọng nói “có thể “tưởng tượng”

Mục tiêu thiết kế của GPT‑Realtime‑2 là giúp mô hình giọng nói duy trì sự trôi chảy trong đối thoại, đồng thời có khả năng suy luận và hành động để xử lý các công việc phức tạp.

Về độ tự nhiên của đối thoại, mô hình đã giới thiệu cơ chế dẫn dắt bằng câu mở đầu.

Nhà phát triển có thể kích hoạt các câu nhắc ngắn như “Hãy để tôi tra cứu” hoặc “Chờ chút, tôi đang xem xét” để thông báo cho người dùng rằng yêu cầu đã được nhận và đang xử lý trước khi tạo phản hồi chính thức.

Đi kèm đó là ** khả năng gọi công cụ song song và minh bạch công cụ, mô hình có thể gọi nhiều công cụ bên ngoài cùng lúc** và thông báo tiến trình qua giọng nói, ví dụ như nói “Đang kiểm tra lịch của bạn” hoặc “Đang tìm kiếm”, giúp trí tuệ nhân tạo duy trì phản hồi trong quá trình hoàn thành nhiệm vụ thay vì im lặng.

Khi gặp khó khăn trong xử lý, mô hình sẽ chủ động đưa ra các gợi ý như “Hiện tôi gặp chút rắc rối” và cố gắng khôi phục, thay vì im lặng thất bại hoặc cắt ngang cuộc hội thoại.

Ngoài ra, cửa sổ ngữ cảnh của mô hình đã mở rộng từ 32K lên 128K, nghĩa là nó có thể duy trì tính mạch lạc trong các cuộc đối thoại dài hơn, phức tạp hơn, hỗ trợ quy trình làm việc của trí tuệ nhân tạo toàn diện hơn.

Về khả năng ứng dụng trong các lĩnh vực chuyên môn, mô hình đã nâng cao khả năng hiểu các thuật ngữ đặc thù, giữ chính xác các từ chuyên ngành, danh từ riêng và thuật ngữ y học, điều này đặc biệt có giá trị trong môi trường sản xuất. Về mặt biểu cảm, mô hình có khả năng kiểm soát tốt hơn về giọng điệu và phong cách thể hiện, có thể chuyển đổi phù hợp theo tình huống.

Một nâng cấp quan trọng khác là độ suy luận có thể điều chỉnh được. Nhà phát triển có thể chọn từ năm cấp độ minimal, low, medium, high và xhigh (mặc định là low), để cân bằng giữa độ trễ và độ sâu của suy luận.

Không nói dài dòng

GPT‑Realtime‑2 vượt trội hoàn toàn so với thế hệ trước trong các bài kiểm tra

Trong bài đánh giá Big Bench Audio, thử thách khả năng suy luận phức tạp của mô hình giọng nói, GPT‑Realtime‑2 (cấp suy luận cao) đạt độ chính xác 96,6%, trong khi GPT‑Realtime‑1.5 chỉ đạt 81,4%, tăng 15,2 điểm phần trăm.

Trong bài kiểm tra Audio MultiChallenge, đánh giá khả năng đối thoại đa vòng của hệ thống, bao gồm tuân thủ lệnh, tích hợp ngữ cảnh, nhất quán tự thân và xử lý chỉnh sửa tự nhiên, tỷ lệ vượt qua trung bình của GPT‑Realtime‑2 (cấp xHigh) từ GPT‑Realtime‑1.5 là 34,7% lên 48,5%, tăng 13,8 điểm phần trăm.

Thực tế, để đánh giá một mô hình giọng nói có thực sự “thông minh”, không phải qua các cuộc trò chuyện phiến diện, mà qua khả năng xử lý các vấn đề phức tạp đòi hỏi suy luận nhiều lớp.

Lưu ý: Trong tài liệu trình diễn, OpenAI đã đưa ra một bài kiểm tra cụ thể: người dùng mô tả về dự án khởi nghiệp của mình, và hai thế hệ mô hình Realtime đã thực hiện suy luận giọng nói và chuyển thành văn bản tương ứng.

Trường hợp này là một nhiệm vụ phức hợp đòi hỏi khả năng suy luận cao: mô hình cần hiểu mối quan hệ giữa nhiều biến số, như phân bố thời gian khách hàng, chi phí thuê cố định đắt đỏ, và định hướng kinh doanh cà phê chậm rãi, ít quay vòng bàn, và thực hiện suy luận logic trong các giới hạn đó.

GPT‑Realtime‑2 mất 1 phút 4 giây để đưa ra câu trả lời rõ ràng, phân tầng, không chỉ phân tích mâu thuẫn giữa dòng khách và cấu trúc thuê mướn, chỉ ra rằng thời điểm cao điểm quá tập trung có thể làm giảm hiệu quả diện tích, không đủ để trang trải chi phí thuê, mà còn đề xuất các phương án thử nghiệm nhẹ nhàng cụ thể.

Cùng câu hỏi đó, thế hệ trước GPT‑Realtime‑1.5 phản hồi trong 51 giây, nhưng độ sâu rõ ràng không bằng. So sánh này trực tiếp thể hiện sự khác biệt về khả năng suy luận chiến lược giữa hai thế hệ mô hình.

03 Dịch và chuyển đổi âm thanh theo thời gian thực

Ngoài GPT‑Realtime‑2, OpenAI còn ra mắt hai mô hình chuyên dụng phù hợp với các tình huống rõ ràng.

GPT‑Realtime‑Translate tập trung vào dịch đa ngôn ngữ theo thời gian thực, hỗ trợ hơn 70 ngôn ngữ đầu vào, có thể xuất ra 13 ngôn ngữ đích cùng lúc và đồng bộ cung cấp bản ghi chuyển đổi. Các ứng dụng mục tiêu gồm hỗ trợ khách hàng, bán hàng xuyên biên giới, giáo dục, sự kiện và nền tảng sáng tạo dành cho khán giả toàn cầu.

Giám đốc AI của Vimeo, Alberto Parravicini, chia sẻ về các ứng dụng của họ: trong quá trình phát video, tích hợp GPT‑Realtime‑Translate giúp các nhà sáng tạo có thể giao tiếp đa ngôn ngữ ngay khi phát sóng.

Vimeo trình diễn khả năng dịch theo thời gian thực của GPT‑Realtime‑Translate

GPT‑Realtime‑Whisper là một mô hình chuyển đổi giọng nói thành văn bản theo luồng, dành riêng cho các kịch bản ghi chép có độ trễ thấp.

Nó có thể bắt đầu ghi chép ngay khi người nói bắt đầu phát âm, phù hợp cho phụ đề họp trực tiếp, ghi chú lớp học, phụ đề phát thanh và các kịch bản tương tác giọng nói cần tạo ra quy trình làm việc ngay lập tức. Giá trị cốt lõi của nó là chuyển đổi nội dung giọng nói thành dạng văn bản có cấu trúc để các hệ thống xử lý phía sau có thể sử dụng ngay trong quá trình hội thoại.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
815.85K Phổ biến
#
BitcoinFallsBelow80K
95.04M Phổ biến
#
IsraelStrikesIranBTCPlunges
44.79K Phổ biến
#
IranUSConflictEscalates
98.12K Phổ biến
#
OilPriceRollerCoaster
309.82K Phổ biến

Ghim

sơ đồ trang web

OpenAI khiến mô hình “há miệng” chửi rủa AI rất đắt

Trợ lý giọng nói “có thể “tưởng tượng”

Không nói dài dòng

03 Dịch và chuyển đổi âm thanh theo thời gian thực

Chủ đề thịnh hành

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Ghim