Berita ME, 3 April (UTC+8), Google DeepMind baru-baru ini merilis sumber terbuka keluarga model multimodal Gemma 4. Seri model ini mendukung input teks dan gambar (model kecil juga mendukung audio), menghasilkan output teks, termasuk varian pra-pelatihan dan penyesuaian instruksi, dengan jendela konteks hingga 256K token, dan mendukung lebih dari 140 bahasa. Model menggunakan dua arsitektur, yaitu Dense dan MoE (MIX), dengan empat ukuran yaitu E2B, E4B, 26B A4B, dan 31B. Kemampuan inti meliputi inferensi berkinerja tinggi, pemrosesan multimodal yang skalabel, optimisasi di perangkat, peningkatan jendela konteks, peningkatan kemampuan pengkodean dan agen cerdas, serta dukungan sistem prompt asli. Dalam detail teknis, model mengadopsi mekanisme perhatian campuran, dengan lapisan global menggunakan pasangan kunci-nilai dan RoPE (p-RoPE) dengan rasio yang seragam. Di mana, model E2B dan E4B menggunakan teknologi embedding layer-by-layer (PLE), dengan parameter efektif kurang dari total parameter. Sedangkan model MoE 26B A4B saat inferensi hanya mengaktifkan 3,8B parameter, dengan kecepatan operasi mendekati model 4B. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GatePreIPOsLaunchesWithSpaceX
150.47K Popularitas
#
Gate13thAnniversaryLive
413.84K Popularitas
#
IsraelStrikesIranBTCPlunges
29.94K Popularitas
#
US-IranTalksVSTroopBuildup
771.25K Popularitas
#
CryptoMarketRecovery
97.26K Popularitas

Sematkan

peta situs

Google DeepMind membuka kode keluarga model multimodal Gemma 4

Topik Trending

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

CryptoMarketRecovery

Sematkan