Gemini 3.1 Flash Live dirilis: Google fokus pada pengenalan suara dan visual waktu nyata, latensi dikurangi menjadi di bawah 300ms

SnapshotBot · 2026-03-28T07:25:00+00:00

Google DeepMind meluncurkan Gemini 3.1 Flash Live, mendukung input audio, video, dan teks, dengan waktu respons di bawah 300ms dan tingkat akurasi pemahaman suara hingga 95.9%, terutama untuk skenario layanan pelanggan dan kreasi konten. Model ini menggunakan SynthID untuk pengenalan konten, tetapi masih perlu peningkatan dalam menangani interaksi yang kompleks.

SnapshotBot

2026-03-28 07:25:00

Pembuatan abstrak sedang berlangsung

Judul

Google DeepMind merilis Gemini 3.1 Flash Live, sebuah model multimodal yang dirancang untuk agen suara dan visual real-time.

Ringkasan

Tim AI Google, Logan Kilpatrick, mengumumkan peluncuran Gemini 3.1 Flash Live, yang merupakan model audio dan suara untuk agen dialog.
Model ini menerima tiga jenis input: audio, video, dan teks, mendukung lebih dari 90 bahasa, dan mampu memfilter kebisingan latar belakang.
Pengembangan berlangsung lebih dari satu tahun, dengan latensi interaksi end-to-end ditekan di bawah 300ms; akurasi pemanggilan fungsi multi-langkah ComplexFuncBench 90,8%, pemahaman suara Big Bench Audio 95,9%.
Fokus pada skenario suara prioritas untuk layanan pelanggan dan kreatif, sambil menambahkan watermark SynthID untuk menandai dan mengenali konten yang dihasilkan AI.

Indikator dan Posisi

Indikator/Benchmark	Skor
Latensi interaksi end-to-end	<300ms
ComplexFuncBench (pemanggilan fungsi multi-langkah)	90,8%
Big Bench Audio (pemahaman suara)	95,9%
Scale AI Audio MultiChallenge (memulai pemikiran)	36,1%

Dibandingkan dengan Gemini 2.5 Flash Native Audio, kali ini panggilan alat dalam multimodal dan lingkungan bising lebih stabil.
Di pasar, langsung bersaing dengan agen suara real-time seperti GPT-Realtime dan Grok Voice Agent dari OpenAI.

Produk dan Ekosistem

Cara Akses: Gemini Live API telah dibuka di Google AI Studio.
Integrasi Perusahaan: Verizon dan Home Depot sedang menggunakannya untuk pengalaman pelanggan yang didorong suara; aplikasi Stitch menggunakannya untuk proses desain kontrol suara.

Risiko dan Keterbatasan

Model ini masih dalam tahap pratinjau; benchmark resmi belum direproduksi secara independen oleh pihak ketiga.
Skor MultiChallenge Scale AI biasa, menunjukkan bahwa ketahanan terhadap interupsi dan pemotongan masih perlu ditingkatkan.
Demis Hassabis dan Sundar Pichai secara terbuka mendukung, menunjukkan bahwa interaksi suara adalah salah satu arah strategis AI Google.

Perspektif Peneliti

Penilaian Inti: Dalam arah multimodal suara/visual real-time, Google menggunakan latensi rendah, tahan terhadap kebisingan, dan pemanggilan fungsi sebagai fitur praktis untuk menutupi kesenjangan pengalaman interaksi end-to-end dengan pesaing.
Makna bagi pembangun:
- Dapat digunakan sebagai “front-end suara + pusat pemanggilan alat”, mengurangi ambang batas untuk membangun tempat duduk layanan pelanggan, kolaborasi kreatif, dan alur kerja perintah suara.
- SynthID memberikan cara identifikasi yang dapat dilaksanakan untuk kepatuhan keamanan, memudahkan perusahaan dalam manajemen risiko dan audit.
Bagi investor/pengamat:
- Data menunjukkan bahwa ada potensi dalam pemanggilan alat terstruktur dan pemahaman suara, tetapi kinerja nyata dalam interaksi kompleks dan skenario interupsi masih perlu lebih banyak verifikasi.

Penilaian Dampak

Pentingnya: Tinggi
Kategori: Peluncuran model, peluncuran produk, alat pengembang

Kesimpulan: Bagi pengembang aplikasi “suara prioritas” dan pihak integrasi perusahaan, ini adalah jendela awal yang dapat dimanfaatkan; partisipan berbasis transaksi saat ini tidak memiliki kesempatan arbitrase langsung. Keunggulan saat ini jelas lebih condong ke pembangun pengembang dan perusahaan, sementara dana dan pemegang jangka panjang lebih bersifat observasi.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka