Gemini 3.1 Flash Live dirilis: Google fokus pada pengenalan suara dan visual waktu nyata, latensi dikurangi menjadi di bawah 300ms

robot
Pembuatan abstrak sedang berlangsung

Judul

Google DeepMind merilis Gemini 3.1 Flash Live, sebuah model multimodal yang dirancang untuk agen suara dan visual real-time.

Ringkasan

  • Tim AI Google, Logan Kilpatrick, mengumumkan peluncuran Gemini 3.1 Flash Live, yang merupakan model audio dan suara untuk agen dialog.
  • Model ini menerima tiga jenis input: audio, video, dan teks, mendukung lebih dari 90 bahasa, dan mampu memfilter kebisingan latar belakang.
  • Pengembangan berlangsung lebih dari satu tahun, dengan latensi interaksi end-to-end ditekan di bawah 300ms; akurasi pemanggilan fungsi multi-langkah ComplexFuncBench 90,8%, pemahaman suara Big Bench Audio 95,9%.
  • Fokus pada skenario suara prioritas untuk layanan pelanggan dan kreatif, sambil menambahkan watermark SynthID untuk menandai dan mengenali konten yang dihasilkan AI.

Indikator dan Posisi

Indikator/Benchmark Skor
Latensi interaksi end-to-end <300ms
ComplexFuncBench (pemanggilan fungsi multi-langkah) 90,8%
Big Bench Audio (pemahaman suara) 95,9%
Scale AI Audio MultiChallenge (memulai pemikiran) 36,1%
  • Dibandingkan dengan Gemini 2.5 Flash Native Audio, kali ini panggilan alat dalam multimodal dan lingkungan bising lebih stabil.
  • Di pasar, langsung bersaing dengan agen suara real-time seperti GPT-Realtime dan Grok Voice Agent dari OpenAI.

Produk dan Ekosistem

  • Cara Akses: Gemini Live API telah dibuka di Google AI Studio.
  • Integrasi Perusahaan: Verizon dan Home Depot sedang menggunakannya untuk pengalaman pelanggan yang didorong suara; aplikasi Stitch menggunakannya untuk proses desain kontrol suara.

Risiko dan Keterbatasan

  • Model ini masih dalam tahap pratinjau; benchmark resmi belum direproduksi secara independen oleh pihak ketiga.
  • Skor MultiChallenge Scale AI biasa, menunjukkan bahwa ketahanan terhadap interupsi dan pemotongan masih perlu ditingkatkan.
  • Demis Hassabis dan Sundar Pichai secara terbuka mendukung, menunjukkan bahwa interaksi suara adalah salah satu arah strategis AI Google.

Perspektif Peneliti

  • Penilaian Inti: Dalam arah multimodal suara/visual real-time, Google menggunakan latensi rendah, tahan terhadap kebisingan, dan pemanggilan fungsi sebagai fitur praktis untuk menutupi kesenjangan pengalaman interaksi end-to-end dengan pesaing.
  • Makna bagi pembangun:
    • Dapat digunakan sebagai “front-end suara + pusat pemanggilan alat”, mengurangi ambang batas untuk membangun tempat duduk layanan pelanggan, kolaborasi kreatif, dan alur kerja perintah suara.
    • SynthID memberikan cara identifikasi yang dapat dilaksanakan untuk kepatuhan keamanan, memudahkan perusahaan dalam manajemen risiko dan audit.
  • Bagi investor/pengamat:
    • Data menunjukkan bahwa ada potensi dalam pemanggilan alat terstruktur dan pemahaman suara, tetapi kinerja nyata dalam interaksi kompleks dan skenario interupsi masih perlu lebih banyak verifikasi.

Penilaian Dampak

  • Pentingnya: Tinggi
  • Kategori: Peluncuran model, peluncuran produk, alat pengembang

Kesimpulan: Bagi pengembang aplikasi “suara prioritas” dan pihak integrasi perusahaan, ini adalah jendela awal yang dapat dimanfaatkan; partisipan berbasis transaksi saat ini tidak memiliki kesempatan arbitrase langsung. Keunggulan saat ini jelas lebih condong ke pembangun pengembang dan perusahaan, sementara dana dan pemegang jangka panjang lebih bersifat observasi.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan