Các Mô Hình Âm Thanh Mới của OpenAI Hỗ Trợ Trợ Lý Giọng Nói Thời Gian Thực Với Dịch Đa Ngôn Ngữ Và Trí Tuệ Truyền Dữ Liệu

Tóm tắt ngắn gọn

OpenAI đã phát hành các mô hình GPT-Realtime-2, Translate và Whisper, mở rộng khả năng AI thoại theo thời gian thực với khả năng lý luận, dịch thuật và chuyển đổi lời nói cho các ứng dụng hội thoại nâng cao.

New OpenAI Audio Models Power Real-Time Voice Assistants With Multilingual Translation And Streaming IntelligenceOpenAI công bố một bộ các mô hình âm thanh mới trong hệ sinh thái API của mình, đánh dấu sự mở rộng khả năng thoại theo thời gian thực cho các nhà phát triển và ứng dụng dựa trên AI. Việc phát hành bao gồm GPT-Realtime-2, GPT-Realtime-Translate và GPT-Realtime-Whisper, mỗi mô hình được thiết kế để cho phép các tương tác thoại phức tạp, phản hồi nhanh hơn và nhận thức ngữ cảnh trong nhiều trường hợp sử dụng khác nhau.

GPT-Realtime-2 được định vị là mô hình thoại tiên tiến nhất của công ty tính đến nay, giới thiệu khả năng lý luận cấp lớp GPT-5 vào các cuộc trò chuyện âm thanh trực tiếp. Mô hình được thiết kế để xử lý các yêu cầu phức tạp của người dùng, duy trì tính liên tục của ngữ cảnh và hỗ trợ lý luận nhiều bước trong khi tương tác theo thời gian thực. Nó dành cho các ứng dụng mà các trợ lý thoại không chỉ phản hồi nhanh mà còn phải hiểu ý định, quản lý gián đoạn và thực thi nhiệm vụ thông qua việc sử dụng công cụ tích hợp.

Cùng với đó, GPT-Realtime-Translate cho phép dịch lời nói trực tiếp hơn 70 ngôn ngữ đầu vào thành 13 ngôn ngữ đầu ra. Hệ thống được xây dựng để duy trì luồng hội thoại trong khi giữ nguyên ý nghĩa và thời gian, cho phép người nói giao tiếp bằng các ngôn ngữ khác nhau mà không bị trễ rõ rệt. Khả năng này hướng tới dịch vụ hỗ trợ khách hàng toàn cầu, giáo dục, du lịch và giao tiếp xuyên biên giới.

Mô hình thứ ba, GPT-Realtime-Whisper, tập trung vào chuyển đổi lời nói thành văn bản theo luồng. Nó cung cấp bản chép lời liên tục, độ trễ thấp khi người dùng nói, cho phép phụ đề theo thời gian thực, ghi chép trực tiếp và xử lý nội dung nói ngay lập tức. Mô hình này phù hợp với các môi trường cần chuyển đổi nhanh lời nói thành văn bản, như họp, phát sóng truyền thông và quy trình doanh nghiệp.

OpenAI mô tả việc phát hành kết hợp này như một bước tiến hướng tới các giao diện thoại vượt ra ngoài hệ thống lệnh và phản hồi cơ bản. Thay vì chỉ nhận diện lời nói và tạo phản hồi, các mô hình này nhằm hỗ trợ lý luận liên tục, dịch thuật, chuyển đổi lời nói và thực thi hành động trong một luồng hội thoại duy nhất. Mục tiêu là tạo ra các hệ thống dựa trên thoại có thể hoạt động giống như trợ lý tương tác, có khả năng hoàn thành nhiệm vụ trong khi duy trì cuộc đối thoại tự nhiên.

GPT-Realtime-2 Nâng cao Kiến trúc AI Thoại Với Hệ Thống Chuyển Đổi Thoại Thành Hành Động Và Mở Rộng Cửa Sổ Ngữ Cảnh

Công ty nhấn mạnh một số mẫu thiết kế mới nổi được kích hoạt bởi công nghệ này. Bao gồm hệ thống chuyển đổi thoại thành hành động, nơi người dùng có thể mô tả nhiệm vụ và hệ thống thực thi qua lý luận tự động và tích hợp công cụ; hệ thống từ phần mềm sang thoại, nơi phần mềm tạo hướng dẫn bằng lời dựa trên dữ liệu ngữ cảnh; và hệ thống dịch thoại sang thoại, cho phép giao tiếp đa ngôn ngữ theo thời gian thực giữa các người nói.

GPT-Realtime-2 giới thiệu các cải tiến kiến trúc bổ sung cho mục đích sản xuất. Bao gồm cửa sổ ngữ cảnh dài hơn mở rộng đến 128K token, cải thiện khả năng phục hồi trong các trường hợp gián đoạn hoặc lỗi, thực thi công cụ song song với phản hồi minh bạch, và điều chỉnh âm điệu dễ kiểm soát hơn tùy theo ngữ cảnh hội thoại. Các nhà phát triển cũng có thể tinh chỉnh mức độ lý luận để cân bằng giữa tốc độ và độ phức tạp phù hợp với nhu cầu ứng dụng.

Các chỉ số hiệu suất do OpenAI trích dẫn cho thấy kết quả cải thiện trong các nhiệm vụ lý luận dựa trên âm thanh và theo dõi hướng dẫn so với các phiên bản trước của các mô hình thời gian thực. Hệ thống cũng thể hiện khả năng xử lý tốt hơn các thuật ngữ chuyên ngành và hành xử ổn định hơn trong các cuộc trò chuyện nhiều lượt.

Việc phát hành còn tích hợp các cơ chế an toàn, bao gồm giám sát theo thời gian thực và phân loại nội dung trong các phiên hoạt động, cùng với các kiểm soát cấp nhà phát triển để tăng cường bảo vệ. Các mô hình có sẵn qua API Thời gian thực và hướng tới triển khai trong các ứng dụng doanh nghiệp, người tiêu dùng và dành cho nhà phát triển, với giá cả dựa trên các chỉ số xử lý âm thanh theo mức sử dụng.

Việc giới thiệu GPT-Realtime-2 và các mô hình đi kèm phản ánh xu hướng chuyển đổi sang các hệ thống tính toán dựa trên thoại có khả năng lý luận, dịch thuật và chuyển đổi lời nói theo thời gian thực, nhằm làm cho tương tác bằng lời nói với phần mềm trở nên chức năng hơn, thích ứng hơn và có khả năng vận hành cao hơn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim