Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
OpenAI membuat model "buka mulut" menghina AI sangat mahal
Penulis: Su Yang, Tencent Technology
8 Mei, OpenAI menambahkan tiga model suara generasi baru dalam API mereka: GPT‑Realtime‑2 yang menonjolkan penalaran dan percakapan suara, Realtime‑Translate yang menonjolkan terjemahan multibahasa secara real-time, serta Realtime‑Whisper yang fokus pada konversi suara ke teks.
GPT‑Realtime‑2 adalah model suara pertama dari OpenAI yang memiliki kemampuan penalaran setingkat GPT‑5. Ia menunjukkan kemajuan signifikan dalam pengujian standar: akurasi dalam penilaian kecerdasan suara Big Bench Audio mencapai 96,6%, dan tingkat keberhasilan rata-rata dalam penilaian kepatuhan instruksi Audio MultiChallenge adalah 48,5%, meningkat masing-masing 15,2 poin dan 13,8 poin dari generasi sebelumnya GPT‑Realtime‑1.5.
Berdasarkan GPT‑Realtime‑2, AI suara berevolusi dari sekadar tanya jawab berputar sederhana menjadi bentuk yang mampu mendengarkan secara terus-menerus selama percakapan berlangsung, melakukan penalaran, memanggil alat, dan menyelesaikan tugas.
Asisten suara yang “berpikir”
Tujuan desain GPT‑Realtime‑2 adalah agar model suara mampu menjaga kelancaran percakapan sekaligus memiliki kemampuan penalaran dan tindakan yang diperlukan untuk menangani tugas kompleks.
Dalam hal naturalitas percakapan, model memperkenalkan mekanisme kalimat pendahuluan.
Pengembang dapat mengaktifkan prompt singkat seperti “Izinkan saya cek” atau “Tunggu sebentar, sedang saya lihat” sebelum respons resmi dihasilkan, memberi tahu pengguna bahwa permintaan telah diterima dan sedang diproses.
Sejalan dengan itu, kemampuan pemanggilan alat secara paralel dan transparansi alat, model dapat memanggil beberapa alat eksternal sekaligus dan memberi tahu pengguna tentang kemajuan saat ini melalui suara, misalnya mengatakan “Sedang memeriksa kalender Anda” atau “Sedang mencari,” sehingga agen cerdas tetap responsif selama menyelesaikan tugas dan tidak diam saja.
Ketika menghadapi kesulitan, model akan secara aktif memberikan pesan seperti “Saya mengalami sedikit masalah sekarang” dan mencoba memulihkan, bukan diam saja atau langsung memutuskan percakapan.
Selain itu, jendela konteks model diperbesar dari 32K menjadi 128K, yang berarti dapat menjaga koherensi dalam percakapan multi-putaran yang lebih panjang dan kompleks, mendukung alur kerja agen yang lebih lengkap.
Dalam hal aplikasi profesional, model meningkatkan pemahaman terhadap istilah khusus bidang tertentu, mampu mempertahankan kosakata teknis, nama merek, dan istilah medis secara lebih akurat, yang sangat bernilai untuk deployment di lingkungan produksi. Dari segi ekspresi, model memiliki kontrol yang lebih baik terhadap nada dan ekspresi, dapat beralih gaya sesuai konteks.
Peningkatan penting lainnya adalah kekuatan penalaran yang dapat disesuaikan. Pengembang dapat memilih dari lima tingkat: minimal, rendah, sedang, tinggi, dan sangat tinggi (default adalah rendah), untuk menyeimbangkan antara latensi dan kedalaman penalaran.
Tidak Ngobrol Sembarang
GPT‑Realtime‑2 unggul mutlak dalam pengujian standar
Dalam penilaian Big Bench Audio yang mengukur kemampuan penalaran menantang dari model suara, GPT‑Realtime‑2 (tingkat penalaran tinggi) meraih akurasi 96,6%, sedangkan GPT‑Realtime‑1.5 hanya 81,4%, peningkatan sebesar 15,2 poin.
Dalam pengujian Audio MultiChallenge yang menilai kecerdasan interaksi multi-putaran dalam sistem percakapan lisan—meliputi kepatuhan instruksi, integrasi konteks, konsistensi diri, dan koreksi alami—rata-rata tingkat keberhasilan GPT‑Realtime‑2 (tingkat penalaran xhigh) melonjak dari 34,7% menjadi 48,5%, peningkatan 13,8 poin.
Sebenarnya, untuk menilai apakah sebuah model suara benar-benar “cerdas”, bukan sekadar ngobrol santai, melainkan mampu menyelesaikan masalah kompleks yang membutuhkan penalaran berlapis-lapis.
Catatan: Dalam dokumen demonstrasi, OpenAI menyertakan sebuah pengujian spesifik: pengguna mendeskripsikan usaha mereka, dan kedua generasi model realtime melakukan penalaran suara dan menampilkan transkrip teksnya.
Kasus tersebut merupakan tugas kompleks yang sangat menuntut kemampuan penalaran: model harus memahami hubungan antar berbagai variabel sekaligus, seperti distribusi waktu lalu lintas pelanggan yang tidak merata, biaya sewa tetap yang mahal, dan posisi bisnis seperti kedai kopi slow pour yang memiliki tingkat perputaran meja rendah, serta melakukan penalaran logis di bawah batasan tersebut.
GPT‑Realtime‑2 memberikan jawaban yang terstruktur dan berlapis dalam waktu 1 menit 4 detik, tidak hanya memecahkan kontradiksi antara pola arus manusia dan struktur sewa, menunjukkan bahwa puncak lalu lintas yang terlalu terkonsentrasi dapat menyebabkan efisiensi ruang secara keseluruhan tidak cukup untuk menutupi biaya sewa, tetapi juga mengusulkan jalur pengujian ringan yang spesifik.
Sebaliknya, model generasi sebelumnya GPT‑Realtime‑1.5 membutuhkan waktu 51 detik untuk menjawab, tetapi kedalaman analisisnya jauh kurang. Perbandingan ini secara langsung menunjukkan jarak generasi dalam kemampuan penalaran strategis.
03 Terjemahan dan Transkripsi Real-Time
Selain GPT‑Realtime‑2, OpenAI juga merilis dua model khusus lainnya yang ditujukan untuk kebutuhan skenario tertentu.
GPT‑Realtime‑Translate fokus pada terjemahan multibahasa secara real-time, mendukung lebih dari 70 bahasa input, dan mampu output secara langsung ke 13 bahasa target sekaligus menyediakan transkripsi teks secara bersamaan. Aplikasi utamanya meliputi layanan pelanggan, penjualan lintas negara, pendidikan, acara, dan platform kreator yang menjangkau audiens global.
Alberto Parravicini, kepala AI platform Vimeo, berbagi pengalaman mereka: saat memutar video, mereka mengintegrasikan GPT‑Realtime‑Translate agar pembuat konten dapat berkomunikasi lintas bahasa dengan audiens global secara instan.
Demo kemampuan terjemahan real-time GPT‑Realtime‑Translate dari Vimeo
GPT‑Realtime‑Whisper adalah model konversi suara ke teks secara streaming, dirancang untuk skenario transkripsi dengan latensi rendah.
Ia mampu mulai menghasilkan teks saat pembicara mulai berbicara, cocok untuk subtitle rapat langsung, catatan kelas, subtitle siaran, dan alur kerja suara yang membutuhkan respons cepat. Intinya, ia mengubah konten suara menjadi teks terstruktur yang bisa langsung digunakan oleh sistem bisnis hilir selama percakapan berlangsung.
Keamanan dan Harga
Dalam hal keamanan, API Realtime dilengkapi dengan beberapa lapisan perlindungan—classifier aktif bawaan yang mampu memantau percakapan secara real-time, dan jika terdeteksi adanya interaksi yang melanggar pedoman konten berbahaya, sesi akan dihentikan. Pengembang juga dapat menambahkan lapisan keamanan kustom melalui SDK Agents.
Kebijakan penggunaan OpenAI secara tegas melarang penggunaan output untuk spam, penipuan, atau tujuan berbahaya lainnya.
Menurut panduan resmi, kecuali konteks interaksi sudah jelas menunjukkan bahwa lawan bicara adalah AI, pengembang harus menginformasikan secara jelas kepada pengguna akhir bahwa mereka sedang berinteraksi dengan kecerdasan buatan (misalnya, memberi peringatan: “Sekarang yang berbicara adalah AI”). Selain itu, API ini juga mendukung penyimpanan data sesuai aturan Uni Eropa dan dilindungi oleh komitmen privasi perusahaan.
Ketiga model ini kini sudah tersedia untuk pengembang melalui Realtime API.
Dalam hal harga, GPT‑Realtime‑2 dikenai biaya berdasarkan token suara, dengan tarif 32 dolar AS per 1 juta token input (cache input 0,40 dolar per 100 juta token), dan 64 dolar AS per 1 juta token output. GPT‑Realtime‑Translate dihitung berdasarkan durasi penggunaan, yaitu 0,034 dolar per menit. GPT‑Realtime‑Whisper juga dihitung berdasarkan durasi, yaitu 0,017 dolar per menit.
Untuk mendukung rangkaian “suara lengkap” baru ini, CEO OpenAI Sam Altman menyatakan di X: “Orang-orang memang mulai berinteraksi dengan AI menggunakan suara, terutama saat mereka perlu menyampaikan banyak konteks sekaligus.”
Dia juga menyebutkan bahwa kalangan muda tampaknya lebih suka berkomunikasi dengan AI melalui suara, sementara pengguna usia menengah ke atas cenderung mengetik, dan dia membuka pertanyaan apakah kebiasaan ini akan berubah di masa depan.
Pertanyaannya sekarang: siapa yang akan menjadi penerus kemampuan penalaran suara OpenAI ini?