GPT-Realtime-2 mang lại trí tuệ GPT-5 cho API thoại

OpenAI đã phát hành một thế hệ mới các mô hình giọng nói trong API của mình vào thứ Tư, cung cấp cho các nhà phát triển công cụ để xây dựng các ứng dụng có thể lý luận qua các yêu cầu bằng lời nói, dịch hơn 70 ngôn ngữ, và phiên âm lời nói khi diễn ra.

Ba mô hình có tên là GPT-Realtime-2, GPT-Realtime-Translate, và GPT-Realtime-Whisper. Chúng đưa giao diện giọng nói AI vượt ra ngoài các trao đổi hỏi đáp đơn giản vào một lĩnh vực nơi một tác nhân AI có thể nghe, suy nghĩ, và hành động giữa chừng cuộc trò chuyện.

GPT-Realtime-2 mang lại khả năng lý luận sắc nét hơn cho giọng nói

GPT-Realtime-2 là mô hình hàng đầu. OpenAI cho biết nó cung cấp khả năng lý luận cấp GPT-5, một bước tiến đáng kể so với tiền nhiệm của nó, GPT-Realtime-1.5.

Mô hình đạt điểm cao hơn 15,2% trên Big Bench Audio, một tiêu chuẩn đánh giá trí tuệ âm thanh, và cao hơn 13,8% trên Audio MultiChallenge, thử nghiệm theo dõi hướng dẫn trong đối thoại nói nhiều lượt.

Các nâng cấp thực tế nhằm vào các nhà phát triển xây dựng các tác nhân giọng nói sản xuất. Mô hình nay hỗ trợ cửa sổ ngữ cảnh 128K, gấp bốn lần giới hạn 32K trước đó, và cung cấp năm cấp độ điều chỉnh nỗ lực lý luận từ “tối thiểu” đến “x cao.”

Nó có thể gọi nhiều công cụ cùng lúc, phục hồi lỗi bằng cách xác nhận bằng lời nói, và tạo ra các cụm từ liên kết ngắn như “để tôi kiểm tra lại” trong quá trình xử lý yêu cầu.

GPT-Realtime-Translate xử lý dịch lời nói trực tiếp. Nó chấp nhận hơn 70 ngôn ngữ đầu vào và xuất ra 13 ngôn ngữ, nhằm bắt kịp với người nói trong thời gian thực.

GPT-Realtime-Whisper cung cấp dịch vụ chuyển đổi lời nói thành văn bản (STT) theo luồng, phiên âm các từ khi chúng được nói ra thay vì chờ đợi một câu hoàn chỉnh.

Zillow, Deutsche Telekom thử nghiệm các mô hình trong sản xuất

Một số công ty đã có quyền truy cập sớm. Zillow đang xây dựng một trợ lý giọng nói có thể xử lý các truy vấn phức tạp về bất động sản, gọi công cụ để tìm kiếm danh sách, và tuân thủ các quy định về Nhà ở Công bằng.

Công ty báo cáo đã cải thiện tỷ lệ thành công cuộc gọi 26 điểm sau tối ưu hóa prompt với GPT-Realtime-2, đạt 95% so với 69% trước đó trên tiêu chuẩn thử thách khó nhất.

Deutsche Telekom đang thử nghiệm dịch thuật trực tiếp cho dịch vụ khách hàng, cho phép người gọi nói bằng ngôn ngữ ưa thích của họ trong khi mô hình xử lý chuyển đổi hai chiều.

Priceline đang khám phá một trợ lý du lịch dựa trên giọng nói có thể quản lý tìm kiếm chuyến bay, thay đổi khách sạn, và dịch thuật tại chỗ trong một phiên duy nhất.

Các mô hình hướng tới các công ty muốn mở rộng khả năng dịch vụ khách hàng, nhưng cũng nhận thấy tiềm năng ứng dụng trong giáo dục, truyền thông, sự kiện, và nền tảng sáng tạo.

OpenAI cho biết đã tích hợp kiểm duyệt nội dung vào các mô hình mới, với các trigger có thể dừng cuộc trò chuyện khi phát hiện vi phạm các hướng dẫn về nội dung độc hại. Công ty mô tả các giới hạn này như một biện pháp bảo vệ chống lại spam, gian lận, và các hình thức lạm dụng khác.

Về giá cả, các mô hình Translate và Whisper tính phí theo phút. GPT-Realtime-2 tính phí theo lượng token tiêu thụ. Cả ba đều có sẵn qua API Realtime của OpenAI, truy cập qua các phương thức kết nối WebRTC, WebSocket, và SIP.

Nếu bạn đang đọc điều này, bạn đã đi trước rồi. Hãy duy trì vị trí đó với bản tin của chúng tôi.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim