Mode suara ChatGPT akan menjadi lebih lancar melalui model waktu nyata yang baru

LootboxPhobia · 2026-03-06T00:05:27+00:00

OpenAI sedang mengembangkan model audio baru bernama BiDi, yang bertujuan untuk membuat percakapan dengan ChatGPT menjadi lebih alami. Model ini dapat menyesuaikan respons secara real-time, bukan berhenti saat pengguna menyela. Meskipun peluncuran model BiDi mungkin tertunda hingga kuartal kedua atau lebih lambat, model ini diharapkan dapat meningkatkan pengalaman interaksi suara dengan asisten AI, sangat cocok untuk aplikasi seperti dukungan pelanggan.

LootboxPhobia

2026-03-06 00:05:27

Pembuatan abstrak sedang berlangsung

Investing.com – Menurut laporan dari The Information, OpenAI sedang mengembangkan sebuah model audio baru yang bertujuan membuat percakapan dengan ChatGPT terasa kurang mekanis, model ini memungkinkan AI untuk menyesuaikan responsnya secara real-time saat terganggu.

Saat ini, mode suara tingkat lanjut di ChatGPT menggunakan sistem percakapan bergiliran, yang mengharuskan pengguna menyelesaikan bicara sebelum AI memproses audio dan menghasilkan respons. Jika pengguna menyela dengan kata-kata seperti “baik” atau “hmm”, model ini akan berhenti berbicara sepenuhnya, bukan melanjutkan percakapan secara alami.

Model baru yang disebut BiDi atau dua arah ini dirancang untuk terus memproses suara pembicara agar dapat segera menyesuaikan respons saat terganggu. Dibandingkan dengan model audio yang ada, ini akan membuat alur percakapan menjadi lebih alami, karena model saat ini akan menghasilkan respons tetap yang tidak dapat diubah begitu AI mulai berbicara.

Namun, teknologi ini belum siap untuk dirilis. Menurut seseorang yang mengetahui proyek ini, setelah beberapa menit percakapan, prototipe model sering mulai mengalami gangguan atau mengeluarkan suara yang terdengar aneh. Meskipun para peneliti OpenAI awalnya berharap merilis BiDi pada kuartal pertama tahun ini, jadwalnya mungkin akan tertunda hingga kuartal kedua atau lebih lambat.

OpenAI percaya bahwa memperkecil kesenjangan kinerja antara model suara dan model berbasis teks akan memperluas penggunaan AI secara global, karena kebanyakan orang akan merasa lebih alami berinteraksi dengan asisten AI daripada mengirim teks.

Model BiDi diperkirakan akan sangat cocok untuk aplikasi dukungan pelanggan. Misalnya, jika seorang pelanggan yang menelepon agen dukungan AI dari retailer memutuskan untuk mengganti barang alih-alih mengembalikan, secara teori BiDi akan memungkinkan agen untuk beralih percakapan dengan lancar, bukan berhenti atau bingung.

Orang yang mengetahui tentang model audio ini juga menyatakan bahwa model ini lebih unggul dalam menggunakan alat dan aplikasi eksternal. Sebelumnya, OpenAI melaporkan berencana meningkatkan model audio mereka untuk perangkat berbasis AI yang akan digunakan pengguna utama melalui interaksi suara di masa depan, dan sedang mempertimbangkan pengembangan speaker pintar yang dapat memeriksa email atau memesan layanan melalui perintah suara.

Artikel ini diterjemahkan dengan bantuan kecerdasan buatan. Untuk informasi lebih lanjut, silakan lihat ketentuan penggunaan kami.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.