Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 30+ model AI, dengan 0% biaya tambahan
《NVIDIA Pangsa Hanya Tersisa 48%, Di Mana Peluang Era Inferensi?》
Ini adalah bagian kesembilan dari seri 100 artikel tentang AI Investasi Riset, dengan 20.000 kata, disarankan untuk disimpan terlebih dahulu, kemungkinan kecil yang bisa selesai membacanya.
Beberapa artikel sebelumnya membahas Intel, AMD, ARM. Harga saham mereka dalam satu tahun terakhir tidak kecil—AMD dua kali lipat, Intel tiga kali lipat, ARM juga mencapai posisi tertinggi dalam sejarah. Setelah naik, muncul pertanyaan sederhana: apakah yang sudah naik ini masih bisa dipegang? Apakah masih ada peluang di yang belum naik?
Untuk menjawab pertanyaan ini, tidak bisa lepas dari satu kata kunci—inferensi. Dalam analisis sebelumnya, dua kata ini sering muncul saat membahas kenaikan perusahaan-perusahaan tersebut.
Lalu: seberapa besar jalur inferensi ini? Saat ini berada di tahap apa? Perusahaan mana yang akan mendapatkan manfaat? Mana yang sudah dihargai pasar, mana yang belum?
Ini adalah hal yang harus dipahami terlebih dahulu.
Satu, seberapa besar jalur ini
Pelatihan model adalah "menulis program", inferensi adalah "proses pemanggilan program ini setiap hari". Setelah GPT dilatih, setiap hari ada ratusan juta orang yang bertanya padanya, setiap tanya jawab menghabiskan daya komputasi inferensi. Claude Code menjalankan satu tugas, agen menjalankan seratus putaran sendiri, setiap putaran adalah inferensi.
Berbagai studi industri dan media mengarah ke satu arah yang sama: setelah model masuk ke lingkungan produksi, inferensi akan menjadi bagian terbesar dari biaya siklus hidup, perkiraan umum berkisar 80-90%. Artinya, dalam tagihan daya komputasi era AI mendatang, 8 dari 10 dolar akan digunakan untuk inferensi.
Namun, selama tiga tahun terakhir, diskusi pasar hampir seluruhnya tentang pelatihan, karena pelatihan adalah cerita yang lebih "menarik"—siapa yang punya H100 lebih banyak, parameter lebih besar, siapa yang melatih model generasi berikutnya terlebih dahulu. Inferensi dipandang sebagai hal yang menyertai pelatihan.
Bias ini sedang dibalik, dan ini adalah alasan utama di balik penetapan ulang harga saham perusahaan semikonduktor dalam setahun terakhir.
Jadi, jalur inferensi ini besar, tapi seberapa besar sebenarnya? Bisa diukur dari lima sudut pandang.
Pertama, jumlah pengguna. ChatGPT aktif mingguan 900 juta, berbayar 50 juta. Perbandingan di China lebih langsung—jumlah token yang dipanggil per hari dari awal 2024 meningkat dari 1 triliun menjadi 140 triliun pada 2026, 1400 kali lipat. Ini masih jauh dari jenuh.
Kedua, intensitas penggunaan. Volume token yang diproses OpenAI pada Oktober 2025 masih 6 miliar per menit, pada April 2026 sudah mencapai 15 miliar—dalam setengah tahun meningkat 2,5 kali. Pendapatan versi perusahaan lebih dari 40%, dan pengguna perusahaan menggunakan puluhan kali lipat lebih banyak daripada konsumen.
Ketiga, panjang percakapan. Panjang konteks dari beberapa ratus token di awal, sekarang API DeepSeek mencantumkan V4 Pro / Flash dengan panjang konteks 1 juta, output maksimal 384 ribu. Semakin panjang dokumen, semakin tinggi konsumsi memori dan daya komputasi untuk satu inferensi.
Keempat, model itu sendiri semakin mahal daya komputasinya. Model reasoning seperti OpenAI o1, DeepSeek R1, Claude Thinking, sebelum menjawab pertanyaan akan "berpikir" terlebih dahulu dalam ribuan bahkan puluhan ribu token. Jensen Huang pernah menyebutkan, model inferensi mungkin membutuhkan jumlah komputasi jauh lebih tinggi, bahkan mencapai ratusan kali lipat.
Dulu, saat bertanya ke AI, langsung diberikan jawaban; sekarang, saat bertanya soal sulit, AI akan berpikir di dalam kepala selama setengah menit sebelum memberi jawaban. "Berpikir setengah menit" ini adalah konsumsi daya tambahan.
Kelima, agen. Sebuah agen biasanya harus memanggil model 10-100 kali untuk satu tugas. Aktivitas mingguan OpenAI Codex sudah melampaui 3 juta—ini baru satu produk dari satu perusahaan. Seorang profesional di rantai industri AI memperkirakan, konsumsi daya keseluruhan dari AI cerdas bisa lebih dari 10 kali lipat dari model bahasa besar dengan parameter yang sama.
Kelima faktor ini dikalikan, dalam tiga sampai lima tahun ke depan, permintaan total inferensi akan mengalami ekspansi besar-besaran, bukan cerita berlebihan, melainkan penilaian yang semakin mendekati arus utama.
Ekonomi memiliki fenomena lama yang disebut Paradox Jevons—ketika efisiensi penggunaan satu unit meningkat, konsumsi total malah meningkat karena harganya menjadi lebih murah, sehingga lebih banyak skenario yang berani digunakan. Setelah efisiensi mesin uap meningkat, konsumsi batu bara di Inggris melonjak; setelah harga token inferensi turun, panggilan AI melonjak. Ini adalah skenario yang sama. IEA memperkirakan, konsumsi listrik pusat data global dari 2024 akan mencapai 1,5% dari total listrik, dan pada 2030 akan berlipat ganda menjadi 945 TWh—sekitar setara dengan total konsumsi listrik tahunan Jerman dan Prancis.
Selain itu, langkah-langkah konkret dari industri juga semakin memperkuat argumen:
ARR Anthropic dari akhir 2024 sebesar 1 miliar dolar, menjadi 30 miliar dolar pada awal 2026—dalam 14 bulan meningkat 30 kali lipat. Untuk mendukung kurva ini, satu perusahaan mengamankan lebih dari 11 GW daya komputasi dari akhir 2025 hingga awal 2026, termasuk memesan TPU senilai 21 miliar dolar dari Broadcom. OpenAI sudah berkomitmen menempatkan 10 GW chip kustom. Target pengiriman TPU Google pada 2026 dinaikkan 50% menjadi 6 juta unit.
Angka pengeluaran modal dari penyedia cloud lebih langsung. Google berencana menghabiskan 175-185 miliar dolar pada 2026, hampir dua kali lipat dari 2025; Amazon menginvestasikan 200 miliar dolar; Meta berencana menambah 65% menjadi 118 miliar dolar. Total pengeluaran modal dari delapan penyedia cloud akan meningkat menjadi lebih dari 600 miliar dolar pada 2026, pertumbuhan tahunan 40%.
Jika digabungkan, kesimpulannya sederhana—kurva permintaan inferensi AI sudah melampaui kapasitas pasokan dari vendor perangkat keras manapun.
Ini adalah latar belakang utama jalur inferensi: era pelatihan adalah "menciptakan dewa", era inferensi adalah "dewa ini dipanggil jutaan orang setiap hari, setiap agen memanggil seratus kali, setiap kali berpikir puluhan ribu token". Dari yang sebelumnya ke yang berikutnya, konsumsi daya tidak meningkat secara linier, tetapi secara eksponensial.
Kedua, perusahaan mana yang akan diuntungkan?
Jalur ini besar, tetapi tidak semua perusahaan akan mendapatkan manfaat, dan posisi dominasi NVIDIA mulai goyah secara data!
Pada 2026, pangsa pasar chip inferensi AI global NVIDIA sekitar 48,2%, AMD sekitar 16,7%, ASIC sekitar 18,5% (termasuk Google TPU 7,8%, AWS Inferentia 5,2%, lainnya 5,5%), chip inferensi domestik total 16,6%.
NVIDIA tetap memegang lebih dari 80% pangsa pasar pelatihan, tetapi di pasar inferensi, hanya tersisa kurang dari setengah, yaitu 48,2%.
Mengapa bisa begitu?
Di era pelatihan, NVIDIA bersaing berdasarkan kekuatan komprehensif—GPU berkinerja tinggi + NVLink untuk koneksi cepat + ekosistem CUDA. Kombinasi ini sangat efektif untuk pelatihan.
Baca selengkapnya: 《NVIDIA Pangsa Hanya Tersisa 48%, Di Mana Peluang Era Inferensi?》