OpenAI merilis model GPT-Realtime-2, Translate, dan Whisper, memperluas AI suara waktu nyata dengan penalaran, terjemahan, dan transkripsi untuk aplikasi percakapan tingkat lanjut.

OpenAI mengumumkan serangkaian model audio baru dalam ekosistem API-nya, menandai perluasan kemampuan suara waktu nyata untuk pengembang dan aplikasi berbasis AI. Rilis ini mencakup GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper, masing-masing dirancang untuk memungkinkan interaksi suara yang lebih canggih, responsif, dan kontekstual di berbagai kasus penggunaan.

GPT-Realtime-2 diposisikan sebagai model suara paling canggih dari perusahaan hingga saat ini, memperkenalkan penalaran setingkat GPT-5 ke dalam percakapan audio langsung. Model ini dirancang untuk menangani permintaan pengguna yang kompleks, menjaga kontinuitas konteks, dan mendukung penalaran multi-langkah saat berinteraksi secara waktu nyata. Model ini ditujukan untuk aplikasi di mana agen suara tidak hanya harus merespons dengan cepat tetapi juga menafsirkan niat, mengelola gangguan, dan menjalankan tugas melalui penggunaan alat terintegrasi.

Seiring dengannya, GPT-Realtime-Translate memungkinkan terjemahan ucapan langsung dari lebih dari 70 bahasa input ke dalam 13 bahasa output. Sistem ini dibangun untuk menjaga alur percakapan sambil mempertahankan makna dan waktu, memungkinkan pembicara berkomunikasi dalam berbagai bahasa tanpa penundaan yang mencolok. Kemampuan ini ditargetkan untuk layanan dukungan pelanggan global, pendidikan, perjalanan, dan komunikasi lintas batas.

Model ketiga, GPT-Realtime-Whisper, fokus pada transkripsi ucapan-ke-teks streaming. Model ini menyediakan transkripsi berkelanjutan dengan latensi rendah saat pengguna berbicara, memungkinkan caption waktu nyata, dokumentasi langsung, dan pemrosesan langsung konten yang diucapkan. Model ini dirancang untuk lingkungan di mana konversi cepat dari ucapan menjadi teks diperlukan, seperti rapat, siaran media, dan alur kerja perusahaan.

OpenAI menggambarkan rilis gabungan ini sebagai langkah menuju antarmuka suara yang melampaui sistem perintah dan respons dasar. Alih-alih hanya mengenali ucapan dan menghasilkan balasan, model ini dimaksudkan untuk mendukung penalaran berkelanjutan, terjemahan, transkripsi, dan eksekusi tindakan dalam satu alur percakapan. Tujuannya adalah untuk memungkinkan sistem berbasis suara yang dapat berfungsi lebih seperti asisten interaktif yang mampu menyelesaikan tugas sambil mempertahankan dialog alami.

GPT-Realtime-2 Tingkatkan Arsitektur AI Suara dengan Sistem Suara-Ke-Aksi dan Jendela Konteks yang Diperluas

Perusahaan menyoroti beberapa pola desain yang muncul yang dimungkinkan oleh teknologi ini. Pola-pola tersebut meliputi sistem suara-ke-aksi, di mana pengguna dapat menggambarkan tugas yang dieksekusi melalui penalaran otomatis dan integrasi alat; sistem-ke-suara aplikasi, di mana perangkat lunak menghasilkan panduan lisan berdasarkan data kontekstual; dan sistem terjemahan suara-ke-suara, yang memungkinkan komunikasi multibahasa waktu nyata antara pembicara.

GPT-Realtime-2 memperkenalkan peningkatan arsitektur tambahan untuk penggunaan produksi. Ini termasuk jendela konteks yang lebih panjang hingga 128K token, perilaku pemulihan yang lebih baik selama gangguan atau kesalahan, eksekusi alat paralel dengan umpan balik transparan, dan penyesuaian nada yang lebih dapat dikendalikan tergantung pada konteks percakapan. Pengembang juga dapat menyetel tingkat penalaran untuk menyeimbangkan kecepatan dan kompleksitas sesuai kebutuhan aplikasi.

Benchmark kinerja yang dikutip oleh OpenAI menunjukkan hasil yang lebih baik dalam penalaran berbasis audio dan tugas mengikuti instruksi dibandingkan iterasi model waktu nyata sebelumnya. Sistem ini juga menunjukkan penanganan yang lebih kuat terhadap terminologi khusus domain dan perilaku yang lebih stabil dalam pengaturan percakapan multi-putar.

Rilis ini juga mengintegrasikan mekanisme keamanan, termasuk pemantauan waktu nyata dan klasifikasi konten dalam sesi aktif, bersama dengan kontrol tingkat pengembang untuk perlindungan tambahan. Model tersedia melalui API Waktu Nyata dan diposisikan untuk penerapan di berbagai aplikasi perusahaan, konsumen, dan pengembang, dengan harga yang disusun berdasarkan metrik pemrosesan audio berbasis penggunaan.

Pengembangan GPT-Realtime-2 dan model pendukungnya mencerminkan pergeseran yang lebih luas menuju sistem komputasi berbasis suara yang mampu melakukan penalaran, terjemahan, dan transkripsi secara waktu nyata, dengan tujuan membuat interaksi lisan dengan perangkat lunak menjadi lebih fungsional, adaptif, dan operasional.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.