Ini adalah bagian kesembilan dari seri 100 artikel tentang AI Investasi Riset, dengan 20.000 kata, disarankan untuk disimpan terlebih dahulu, kemungkinan kecil yang bisa selesai membacanya.
Beberapa artikel sebelumnya membahas Intel, AMD, ARM. Harga saham mereka dalam satu tahun terakhir tidak kecil—AMD dua kali lipat, Intel tiga kali lipat, ARM juga mencapai posisi tertinggi dalam sejarah. Setelah naik, muncul pertanyaan sederhana: apakah yang sudah naik ini masih bisa dipegang? Apakah masih ada peluang di yang belum naik?
Untuk menjawab pertanyaan ini, tidak bisa lepas dari satu kata kunci—inferensi. Dalam analisis sebelumnya, dua kata ini sering muncul saat membahas kenaikan perusahaan-perusahaan tersebut.
Lalu: seberapa besar jalur inferensi ini? Saat ini berada di tahap apa? Perusahaan mana yang akan mendapatkan manfaat? Mana yang sudah dihargai pasar, mana yang belum?
Ini adalah hal yang harus dipahami terlebih dahulu.
Satu, seberapa besar jalur ini
Pelatihan model adalah "menulis program", inferensi adalah "proses pemanggilan program ini setiap hari". Setelah GPT dilatih, setiap hari ada ratusan juta orang yang bertanya padanya, setiap tanya jawab menghabiskan daya komputasi inferensi. Claude Code menjalankan satu tugas, agen menjalankan seratus putaran sendiri, setiap putaran adalah inferensi.
Berbagai studi industri dan media mengarah ke satu arah yang sama: setelah model masuk ke lingkungan produksi, inferensi akan menjadi bagian terbesar dari biaya siklus hidup, perkiraan umum berkisar 80-90%. Artinya, dalam tagihan daya komputasi era AI mendatang, 8 dari 10 dolar akan digunakan untuk inferensi.
Namun, selama tiga tahun terakhir, diskusi pasar hampir seluruhnya tentang pelatihan, karena pelatihan adalah cerita yang lebih "menarik"—siapa yang punya H100 lebih banyak, parameter lebih besar, siapa yang melatih model generasi berikutnya terlebih dahulu. Inferensi dipandang sebagai hal yang menyertai pelatihan.
Bias ini sedang dibalik, dan ini adalah alasan utama di balik penetapan ulang harga saham perusahaan semikonduktor dalam setahun terakhir.
Jadi, jalur inferensi ini besar, tapi seberapa besar sebenarnya? Bisa diukur dari lima sudut pandang.
Pertama, jumlah pengguna. ChatGPT aktif mingguan 900 juta, berbayar 50 juta. Perbandingan di China lebih langsung—jumlah token yang dipanggil per hari dari awal 2024 meningkat dari 1 triliun menjadi 140 triliun pada 2026, 1400 kali lipat. Ini masih jauh dari jenuh.
Kedua, intensitas penggunaan. Volume token yang diproses OpenAI pada Oktober 2025 masih 6 miliar per menit, pada April 2026 sudah mencapai 15 miliar—dalam setengah tahun meningkat 2,5 kali. Pendapatan versi perusahaan lebih dari 40%, dan pengguna perusahaan menggunakan puluhan kali lipat lebih banyak daripada konsumen.
Ketiga, panjang percakapan. Panjang konteks dari beberapa ratus token di awal, sekarang API DeepSeek mencantumkan V4 Pro / Flash dengan panjang konteks 1 juta, output maksimal 384 ribu. Semakin panjang dokumen, semakin tinggi konsumsi memori dan daya komputasi untuk satu inferensi.
Keempat, model itu sendiri semakin mahal daya komputasinya. Model reasoning seperti OpenAI o1, DeepSeek R1, Claude Thinking, sebelum menjawab pertanyaan akan "berpikir" terlebih dahulu dalam ribuan bahkan puluhan ribu token. Jensen Huang pernah menyebutkan, model inferensi mungkin membutuhkan jumlah komputasi jauh lebih tinggi, bahkan mencapai ratusan kali lipat.
Dulu, saat bertanya ke AI, langsung diberikan jawaban; sekarang, saat bertanya soal sulit, AI akan berpikir di dalam kepala selama setengah menit sebelum memberi jawaban. "Berpikir setengah menit" ini adalah konsumsi daya tambahan.
Kelima, agen. Sebuah agen biasanya harus memanggil model 10-100 kali untuk satu tugas. Aktivitas mingguan OpenAI Codex sudah melampaui 3 juta—ini baru satu produk dari satu perusahaan. Seorang profesional di rantai industri AI memperkirakan, konsumsi daya keseluruhan dari AI cerdas bisa lebih dari 10 kali lipat dari model bahasa besar dengan parameter yang sama.
Kelima faktor ini dikalikan, dalam tiga sampai lima tahun ke depan, permintaan total inferensi akan mengalami ekspansi besar-besaran, bukan cerita berlebihan, melainkan penilaian yang semakin mendekati arus utama.
Ekonomi memiliki fenomena lama yang disebut Paradox Jevons—ketika efisiensi penggunaan satu unit meningkat, konsumsi total malah meningkat karena harganya menjadi lebih murah, sehingga lebih banyak skenario yang berani digunakan. Setelah efisiensi mesin uap meningkat, konsumsi batu bara di Inggris melonjak; setelah harga token inferensi turun, panggilan AI melonjak. Ini adalah skenario yang sama. IEA memperkirakan, konsumsi listrik pusat data global dari 2024 akan mencapai 1,5% dari total listrik, dan pada 2030 akan berlipat ganda menjadi 945 TWh—sekitar setara dengan total konsumsi listrik tahunan Jerman dan Prancis.
Selain itu, langkah-langkah konkret dari industri juga semakin memperkuat argumen:
ARR Anthropic dari akhir 2024 sebesar 1 miliar dolar, menjadi 30 miliar dolar pada awal 2026—dalam 14 bulan meningkat 30 kali lipat. Untuk mendukung kurva ini, satu perusahaan mengamankan lebih dari 11 GW daya komputasi dari akhir 2025 hingga awal 2026, termasuk memesan TPU senilai 21 miliar dolar dari Broadcom. OpenAI sudah berkomitmen menempatkan 10 GW chip kustom. Target pengiriman TPU Google pada 2026 dinaikkan 50% menjadi 6 juta unit.
Angka pengeluaran modal dari penyedia cloud lebih langsung. Google berencana menghabiskan 175-185 miliar dolar pada 2026, hampir dua kali lipat dari 2025; Amazon menginvestasikan 200 miliar dolar; Meta berencana menambah 65% menjadi 118 miliar dolar. Total pengeluaran modal dari delapan penyedia cloud akan meningkat menjadi lebih dari 600 miliar dolar pada 2026, pertumbuhan tahunan 40%.
Jika digabungkan, kesimpulannya sederhana—kurva permintaan inferensi AI sudah melampaui kapasitas pasokan dari vendor perangkat keras manapun.
Ini adalah latar belakang utama jalur inferensi: era pelatihan adalah "menciptakan dewa", era inferensi adalah "dewa ini dipanggil jutaan orang setiap hari, setiap agen memanggil seratus kali, setiap kali berpikir puluhan ribu token". Dari yang sebelumnya ke yang berikutnya, konsumsi daya tidak meningkat secara linier, tetapi secara eksponensial.
Kedua, perusahaan mana yang akan diuntungkan?
Jalur ini besar, tetapi tidak semua perusahaan akan mendapatkan manfaat, dan posisi dominasi NVIDIA mulai goyah secara data!
Pada 2026, pangsa pasar chip inferensi AI global NVIDIA sekitar 48,2%, AMD sekitar 16,7%, ASIC sekitar 18,5% (termasuk Google TPU 7,8%, AWS Inferentia 5,2%, lainnya 5,5%), chip inferensi domestik total 16,6%.
NVIDIA tetap memegang lebih dari 80% pangsa pasar pelatihan, tetapi di pasar inferensi, hanya tersisa kurang dari setengah, yaitu 48,2%.
Mengapa bisa begitu?
Di era pelatihan, NVIDIA bersaing berdasarkan kekuatan komprehensif—GPU berkinerja tinggi + NVLink untuk koneksi cepat + ekosistem CUDA. Kombinasi ini sangat efektif untuk pelatihan.
Baca selengkapnya: 《NVIDIA Pangsa Hanya Tersisa 48%, Di Mana Peluang Era Inferensi?》

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka