OpenAI membuat model "buka mulut" menghina AI sangat mahal

Penulis: Su Yang, Tencent Technology

8 Mei, OpenAI menambahkan tiga model suara generasi baru dalam API mereka: GPT‑Realtime‑2 yang menonjolkan penalaran dan percakapan suara, Realtime‑Translate yang menonjolkan terjemahan multibahasa secara real-time, serta Realtime‑Whisper yang fokus pada konversi suara ke teks.

GPT‑Realtime‑2 adalah model suara pertama dari OpenAI yang memiliki kemampuan penalaran setingkat GPT‑5. Ia menunjukkan kemajuan signifikan dalam pengujian standar: akurasi dalam penilaian kecerdasan suara Big Bench Audio mencapai 96,6%, dan tingkat keberhasilan rata-rata dalam penilaian kepatuhan instruksi Audio MultiChallenge adalah 48,5%, meningkat masing-masing 15,2 poin dan 13,8 poin dari generasi sebelumnya GPT‑Realtime‑1.5.

Berdasarkan GPT‑Realtime‑2, AI suara berevolusi dari sekadar tanya jawab berputar sederhana menjadi bentuk yang mampu mendengarkan secara terus-menerus selama percakapan berlangsung, melakukan penalaran, memanggil alat, dan menyelesaikan tugas.

Asisten suara yang “berpikir”

Tujuan desain GPT‑Realtime‑2 adalah agar model suara mampu menjaga kelancaran percakapan sekaligus memiliki kemampuan penalaran dan tindakan yang diperlukan untuk menangani tugas kompleks.

Dalam hal naturalitas percakapan, model memperkenalkan mekanisme kalimat pendahuluan.

Pengembang dapat mengaktifkan prompt singkat seperti “Izinkan saya cek” atau “Tunggu sebentar, sedang saya lihat” sebelum respons resmi dihasilkan, memberi tahu pengguna bahwa permintaan telah diterima dan sedang diproses.

Sejalan dengan itu, kemampuan pemanggilan alat secara paralel dan transparansi alat, model dapat memanggil beberapa alat eksternal sekaligus dan memberi tahu pengguna tentang kemajuan saat ini melalui suara, misalnya mengatakan “Sedang memeriksa kalender Anda” atau “Sedang mencari,” sehingga agen cerdas tetap responsif selama menyelesaikan tugas dan tidak diam saja.

Ketika menghadapi kesulitan, model akan secara aktif memberikan pesan seperti “Saya mengalami sedikit masalah sekarang” dan mencoba memulihkan, bukan diam saja atau langsung memutuskan percakapan.

Selain itu, jendela konteks model diperbesar dari 32K menjadi 128K, yang berarti dapat menjaga koherensi dalam percakapan multi-putaran yang lebih panjang dan kompleks, mendukung alur kerja agen yang lebih lengkap.

Dalam hal aplikasi profesional, model meningkatkan pemahaman terhadap istilah khusus bidang tertentu, mampu mempertahankan kosakata teknis, nama merek, dan istilah medis secara lebih akurat, yang sangat bernilai untuk deployment di lingkungan produksi. Dari segi ekspresi, model memiliki kontrol yang lebih baik terhadap nada dan ekspresi, dapat beralih gaya sesuai konteks.

Peningkatan penting lainnya adalah kekuatan penalaran yang dapat disesuaikan. Pengembang dapat memilih dari lima tingkat: minimal, rendah, sedang, tinggi, dan sangat tinggi (default adalah rendah), untuk menyeimbangkan antara latensi dan kedalaman penalaran.

Tidak Ngobrol Sembarang

GPT‑Realtime‑2 unggul mutlak dalam pengujian standar

Dalam penilaian Big Bench Audio yang mengukur kemampuan penalaran menantang dari model suara, GPT‑Realtime‑2 (tingkat penalaran tinggi) meraih akurasi 96,6%, sedangkan GPT‑Realtime‑1.5 hanya 81,4%, peningkatan sebesar 15,2 poin.

Dalam pengujian Audio MultiChallenge yang menilai kecerdasan interaksi multi-putaran dalam sistem percakapan lisan—meliputi kepatuhan instruksi, integrasi konteks, konsistensi diri, dan koreksi alami—rata-rata tingkat keberhasilan GPT‑Realtime‑2 (tingkat penalaran xhigh) melonjak dari 34,7% menjadi 48,5%, peningkatan 13,8 poin.

Sebenarnya, untuk menilai apakah sebuah model suara benar-benar “cerdas”, bukan sekadar ngobrol santai, melainkan mampu menyelesaikan masalah kompleks yang membutuhkan penalaran berlapis-lapis.

Catatan: Dalam dokumen demonstrasi, OpenAI menyertakan sebuah pengujian spesifik: pengguna mendeskripsikan usaha mereka, dan kedua generasi model realtime melakukan penalaran suara dan menampilkan transkrip teksnya.

Kasus tersebut merupakan tugas kompleks yang sangat menuntut kemampuan penalaran: model harus memahami hubungan antar berbagai variabel sekaligus, seperti distribusi waktu lalu lintas pelanggan yang tidak merata, biaya sewa tetap yang mahal, dan posisi bisnis seperti kedai kopi slow pour yang memiliki tingkat perputaran meja rendah, serta melakukan penalaran logis di bawah batasan tersebut.

GPT‑Realtime‑2 memberikan jawaban yang terstruktur dan berlapis dalam waktu 1 menit 4 detik, tidak hanya memecahkan kontradiksi antara pola arus manusia dan struktur sewa, menunjukkan bahwa puncak lalu lintas yang terlalu terkonsentrasi dapat menyebabkan efisiensi ruang secara keseluruhan tidak cukup untuk menutupi biaya sewa, tetapi juga mengusulkan jalur pengujian ringan yang spesifik.

Sebaliknya, model generasi sebelumnya GPT‑Realtime‑1.5 membutuhkan waktu 51 detik untuk menjawab, tetapi kedalaman analisisnya jauh kurang. Perbandingan ini secara langsung menunjukkan jarak generasi dalam kemampuan penalaran strategis.

03 Terjemahan dan Transkripsi Real-Time

Selain GPT‑Realtime‑2, OpenAI juga merilis dua model khusus lainnya yang ditujukan untuk kebutuhan skenario tertentu.

GPT‑Realtime‑Translate fokus pada terjemahan multibahasa secara real-time, mendukung lebih dari 70 bahasa input, dan mampu output secara langsung ke 13 bahasa target sekaligus menyediakan transkripsi teks secara bersamaan. Aplikasi utamanya meliputi layanan pelanggan, penjualan lintas negara, pendidikan, acara, dan platform kreator yang menjangkau audiens global.

Alberto Parravicini, kepala AI platform Vimeo, berbagi pengalaman mereka: saat memutar video, mereka mengintegrasikan GPT‑Realtime‑Translate agar pembuat konten dapat berkomunikasi lintas bahasa dengan audiens global secara instan.

Demo kemampuan terjemahan real-time GPT‑Realtime‑Translate dari Vimeo

GPT‑Realtime‑Whisper adalah model konversi suara ke teks secara streaming, dirancang untuk skenario transkripsi dengan latensi rendah.

Ia mampu mulai menghasilkan teks saat pembicara mulai berbicara, cocok untuk subtitle rapat langsung, catatan kelas, subtitle siaran, dan alur kerja suara yang membutuhkan respons cepat. Intinya, ia mengubah konten suara menjadi teks terstruktur yang bisa langsung digunakan oleh sistem bisnis hilir selama percakapan berlangsung.

Keamanan dan Harga

Dalam hal keamanan, API Realtime dilengkapi dengan beberapa lapisan perlindungan—classifier aktif bawaan yang mampu memantau percakapan secara real-time, dan jika terdeteksi adanya interaksi yang melanggar pedoman konten berbahaya, sesi akan dihentikan. Pengembang juga dapat menambahkan lapisan keamanan kustom melalui SDK Agents.

Kebijakan penggunaan OpenAI secara tegas melarang penggunaan output untuk spam, penipuan, atau tujuan berbahaya lainnya.

Menurut panduan resmi, kecuali konteks interaksi sudah jelas menunjukkan bahwa lawan bicara adalah AI, pengembang harus menginformasikan secara jelas kepada pengguna akhir bahwa mereka sedang berinteraksi dengan kecerdasan buatan (misalnya, memberi peringatan: “Sekarang yang berbicara adalah AI”). Selain itu, API ini juga mendukung penyimpanan data sesuai aturan Uni Eropa dan dilindungi oleh komitmen privasi perusahaan.

Ketiga model ini kini sudah tersedia untuk pengembang melalui Realtime API.

Dalam hal harga, GPT‑Realtime‑2 dikenai biaya berdasarkan token suara, dengan tarif 32 dolar AS per 1 juta token input (cache input 0,40 dolar per 100 juta token), dan 64 dolar AS per 1 juta token output. GPT‑Realtime‑Translate dihitung berdasarkan durasi penggunaan, yaitu 0,034 dolar per menit. GPT‑Realtime‑Whisper juga dihitung berdasarkan durasi, yaitu 0,017 dolar per menit.

Untuk mendukung rangkaian “suara lengkap” baru ini, CEO OpenAI Sam Altman menyatakan di X: “Orang-orang memang mulai berinteraksi dengan AI menggunakan suara, terutama saat mereka perlu menyampaikan banyak konteks sekaligus.”

Dia juga menyebutkan bahwa kalangan muda tampaknya lebih suka berkomunikasi dengan AI melalui suara, sementara pengguna usia menengah ke atas cenderung mengetik, dan dia membuka pertanyaan apakah kebiasaan ini akan berubah di masa depan.

Pertanyaannya sekarang: siapa yang akan menjadi penerus kemampuan penalaran suara OpenAI ini?

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan