GPT-Realtime-2 menghadirkan kecerdasan GPT-5 ke API suara

OpenAI merilis generasi baru model suara dalam API-nya pada hari Rabu, memberikan pengembang alat untuk membangun aplikasi yang dapat bernalar melalui permintaan lisan, menerjemahkan lebih dari +70 bahasa, dan menyalin ucapan secara langsung.

Ketiga model tersebut diberi nama GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper. Mereka membawa antarmuka suara AI melampaui pertukaran tanya jawab sederhana ke wilayah di mana agen AI dapat mendengarkan, berpikir, dan bertindak di tengah percakapan.

GPT-Realtime-2 membawa penalaran yang lebih tajam ke suara

GPT-Realtime-2 adalah model unggulan. OpenAI mengatakan ini menawarkan penalaran setara GPT-5, langkah signifikan dari pendahulunya, GPT-Realtime-1.5.

Model ini mencetak skor 15,2% lebih tinggi di Big Bench Audio, tolok ukur untuk kecerdasan audio, dan 13,8% lebih tinggi di Audio MultiChallenge, yang menguji mengikuti instruksi dalam dialog lisan berulang.

Peningkatan praktis ini ditujukan untuk pengembang yang membangun agen suara produksi. Model ini sekarang mendukung jendela konteks 128K, empat kali lipat dari batas 32K sebelumnya, dan menawarkan lima tingkat usaha penalaran yang dapat disesuaikan dari “minimal” hingga “xhigh.”

Ini dapat memanggil beberapa alat secara bersamaan, pulih dari kesalahan dengan pengakuan lisan, dan menghasilkan frasa penghubung singkat seperti “biarkan saya periksa itu” saat memproses permintaan.

GPT-Realtime-Translate menangani terjemahan ucapan langsung. Ini menerima lebih dari 70 bahasa input dan menghasilkan output dalam 13 bahasa, dirancang untuk mengikuti kecepatan pembicara secara real time.

GPT-Realtime-Whisper menyediakan streaming ucapan-ke-teks (STT), menyalin kata-kata saat diucapkan daripada menunggu ucapan selesai.

Zillow, Deutsche Telekom menguji model dalam produksi

Beberapa perusahaan mendapatkan akses awal. Zillow sedang membangun asisten suara yang dapat memproses pertanyaan properti yang kompleks, menangani panggilan alat untuk mencari daftar, dan mematuhi regulasi Perumahan Adil.

Perusahaan melaporkan peningkatan 26 poin dalam tingkat keberhasilan panggilan di tolok ukur adversarial tersulit setelah optimisasi prompt dengan GPT-Realtime-2, mencapai 95% dibandingkan sebelumnya 69%.

Deutsche Telekom menguji terjemahan waktu nyata untuk dukungan pelanggan, memungkinkan penelepon berbicara dalam bahasa pilihan mereka sementara model menangani konversi di kedua sisi.

Priceline sedang menjajaki asisten perjalanan berbasis suara yang dapat mengelola pencarian penerbangan, perubahan hotel, dan terjemahan di lapangan dalam satu sesi.

Model ini menargetkan perusahaan yang ingin memperluas kemampuan layanan pelanggan, tetapi juga mencatat potensi aplikasi di bidang pendidikan, media, acara, dan platform pencipta konten.

OpenAI mengatakan mereka membangun moderasi konten ke dalam model baru, dengan pemicu yang dapat menghentikan percakapan yang terdeteksi melanggar pedoman konten berbahaya. Perusahaan menggambarkan pagar pengaman ini sebagai perlindungan terhadap spam, penipuan, dan bentuk penyalahgunaan lainnya.

Mengenai harga, model Translate dan Whisper dikenai biaya per menit. GPT-Realtime-2 dikenai biaya berdasarkan konsumsi token. Ketiga model tersedia melalui API Realtime OpenAI, dapat diakses melalui metode koneksi WebRTC, WebSocket, dan SIP.

Jika Anda membaca ini, Anda sudah selangkah lebih maju. Tetap di posisi itu dengan buletin kami.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan