Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Google Menemukan Cara Membuat AI Lokal Hingga 3x Lebih Cepat—Tanpa Perangkat Keras Baru Diperlukan
Singkatnya
Menjalankan model AI di komputer sendiri itu hebat—sampai suatu saat tidak lagi. Janji utamanya adalah privasi, tanpa biaya langganan, dan tanpa data keluar dari mesin Anda. Realitanya, bagi kebanyakan orang, adalah menonton kursor berkedip selama lima detik di antara kalimat. Hambatan itu bernama: kecepatan inferensi. Dan itu tidak ada hubungannya dengan seberapa pintar model tersebut. Ini adalah masalah perangkat keras. Model AI standar menghasilkan teks satu fragmen kata—yang disebut token—sekaligus. Perangkat keras harus memindahkan miliaran parameter dari memori ke unit komputasinya hanya untuk menghasilkan satu token saja. Itu dirancang lambat. Pada perangkat keras konsumen, ini menyakitkan.
Solusi sementara yang paling banyak digunakan orang adalah menjalankan model yang lebih kecil dan lemah—atau versi yang sangat dikompresi, disebut model kuantisasi, yang mengorbankan sebagian kualitas demi kecepatan. Kedua solusi ini tidak ideal. Anda mendapatkan sesuatu yang berjalan, tetapi bukan model yang sebenarnya Anda inginkan. Sekarang Google punya ide berbeda. Perusahaan baru saja merilis Draft Multi-Token Prediction (MTP) untuk keluarga model terbuka Gemma 4—teknik yang dapat memberikan percepatan hingga 3x tanpa menyentuh kualitas atau kemampuan penalaran model sama sekali.
Pendekatannya disebut speculative decoding, dan sudah ada sebagai konsep selama bertahun-tahun. Peneliti Google menerbitkan makalah dasar tersebut pada tahun 2022. Ide ini tidak menjadi arus utama sampai sekarang karena membutuhkan arsitektur yang tepat agar bisa bekerja secara skala besar.
Berikut versi singkat cara kerjanya. Alih-alih membuat model besar dan kuat melakukan semua pekerjaan sendiri, Anda pasangkan dengan model “drafter” kecil. Drafter ini cepat dan murah—memprediksi beberapa token sekaligus dalam waktu kurang dari yang dibutuhkan model utama untuk menghasilkan satu token. Kemudian model besar memeriksa semua tebakan tersebut dalam satu kali pass. Jika tebakan itu benar, maka Anda mendapatkan seluruh rangkaian untuk harga satu kali forward pass. Menurut Google, “jika model target setuju dengan draft, ia menerima seluruh rangkaian dalam satu forward pass—dan bahkan menghasilkan token tambahan sendiri dalam prosesnya.” Tidak ada yang dikorbankan: Model besar—misalnya versi 31B Gemma 4 yang padat—masih memverifikasi setiap token, dan kualitas outputnya sama persis. Anda hanya memanfaatkan kekuatan komputasi yang idle yang selama ini tidak digunakan selama bagian yang lambat. Google mengatakan model drafter berbagi cache KV dari model target—struktur memori yang menyimpan konteks yang sudah diproses—jadi mereka tidak membuang waktu menghitung ulang hal-hal yang sudah diketahui oleh model yang lebih besar. Untuk model edge yang lebih kecil yang dirancang untuk ponsel dan Raspberry Pi, tim bahkan membangun teknik pengelompokan yang efisien untuk memotong waktu generasi lebih jauh. Ini bukan satu-satunya upaya dunia AI dalam memparallelkan pembuatan teks. Model bahasa berbasis difusi—seperti Mercury dari Inception Labs—mencoba pendekatan yang sama sekali berbeda: Alih-alih memprediksi satu token sekaligus, mereka mulai dengan noise dan secara iteratif menyempurnakan seluruh output. Itu cepat di atas kertas, tetapi model LLM difusi kesulitan menyamai kualitas model transformer tradisional, sehingga lebih menjadi penasaran riset daripada alat praktis. Speculative decoding berbeda karena tidak mengubah model dasar sama sekali. Ini adalah optimisasi penyajian, bukan penggantian arsitektur. Gemma 4 yang sudah Anda jalankan tetap sama, hanya menjadi lebih cepat. Keuntungan praktisnya nyata. Model Gemma 4 26B yang berjalan di GPU desktop Nvidia RTX Pro 6000 mendapatkan sekitar dua kali lipat token per detik dengan fitur MTP drafter diaktifkan, menurut tolok ukur Google sendiri. Di Apple Silicon, batch size 4 sampai 8 permintaan membuka sekitar 2,2x percepatan. Tidak sampai 3x maksimum di setiap skenario, tetapi tetap perbedaan berarti antara “hampir tidak bisa digunakan” dan “benar-benar cukup cepat untuk dipakai.”
Konteksnya penting di sini. Ketika model China DeepSeek mengejutkan pasar pada Januari 2025—menghapus $600 miliar dari kapitalisasi pasar Nvidia dalam satu hari—pelajaran utamanya adalah bahwa peningkatan efisiensi bisa lebih berdampak daripada sekadar menambah daya komputasi mentah. Menjalankan lebih cerdas lebih baik daripada membuang lebih banyak perangkat keras ke masalah. Draft MTP Google adalah langkah lain ke arah itu, tetapi ditujukan langsung ke pasar konsumen. Seluruh industri AI saat ini adalah sebuah segitiga yang mempertimbangkan inferensi, pelatihan, dan memori. Setiap terobosan di salah satu area cenderung meningkatkan atau mengejutkan seluruh ekosistem. Pendekatan pelatihan DeepSeek (mencapai model kuat dengan perangkat keras yang lebih rendah) adalah salah satu contohnya, sementara makalah Google tentang TurboQuant (mengurangi memori AI tanpa kehilangan kualitas) adalah contoh lainnya. Keduanya menyebabkan gejolak pasar saat perusahaan berusaha mencari tahu apa yang harus dilakukan. Google mengatakan draft ini membuka “responsivitas yang lebih baik: secara drastis mengurangi latensi untuk chat hampir waktu nyata, aplikasi suara imersif, dan alur kerja agenik”—jenis tugas yang membutuhkan latensi rendah agar terasa berguna sama sekali. Kasus penggunaan menjadi jelas dengan cepat: Asisten pengkodean lokal yang tidak lag; antarmuka suara yang merespons sebelum Anda lupa apa yang Anda tanyakan; alur kerja agenik yang tidak membuat Anda menunggu tiga detik antar langkah. Semua ini, di perangkat keras yang sudah Anda miliki. Draft MTP tersedia sekarang di Hugging Face, Kaggle, dan Ollama, di bawah lisensi Apache 2.0. Mereka bekerja dengan vLLM, MLX, SGLang, dan Hugging Face Transformers langsung dari kotak.