Google DeepMind membuka kode keluarga model multimodal Gemma 4

robot
Pembuatan abstrak sedang berlangsung

Berita ME, 3 April (UTC+8), Google DeepMind baru-baru ini merilis sumber terbuka keluarga model multimodal Gemma 4. Seri model ini mendukung input teks dan gambar (model kecil juga mendukung audio), menghasilkan output teks, termasuk varian pra-pelatihan dan penyesuaian instruksi, dengan jendela konteks hingga 256K token, dan mendukung lebih dari 140 bahasa. Model menggunakan dua arsitektur, yaitu Dense dan MoE (MIX), dengan empat ukuran yaitu E2B, E4B, 26B A4B, dan 31B. Kemampuan inti meliputi inferensi berkinerja tinggi, pemrosesan multimodal yang skalabel, optimisasi di perangkat, peningkatan jendela konteks, peningkatan kemampuan pengkodean dan agen cerdas, serta dukungan sistem prompt asli. Dalam detail teknis, model mengadopsi mekanisme perhatian campuran, dengan lapisan global menggunakan pasangan kunci-nilai dan RoPE (p-RoPE) dengan rasio yang seragam. Di mana, model E2B dan E4B menggunakan teknologi embedding layer-by-layer (PLE), dengan parameter efektif kurang dari total parameter. Sedangkan model MoE 26B A4B saat inferensi hanya mengaktifkan 3,8B parameter, dengan kecepatan operasi mendekati model 4B. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan