Apakah era penalaran AI benar-benar telah tiba? Rekonstruksi kekuatan komputasi tiga pilar GPU, CPU, dan ASIC

22 Juni 2026, sektor chip saham AS mengalami kenaikan besar secara keseluruhan—Indeks Semikonduktor Philadelphia naik 6,42% dalam satu hari, Intel naik lebih dari 10% karena berita kerjasama dengan Apple dalam produksi chip, ADR TSMC naik 6,94% ditutup di $462,12, Nvidia naik hampir 3%. Di balik sentimen pasar, ada sebuah penilaian industri yang sedang mempercepat realisasinya: struktur permintaan daya komputasi AI telah beralih dari dorongan pelatihan ke dorongan inferensi.

Menurut analisis industri, permintaan daya total AI untuk inferensi telah meningkat dari sekitar sepertiga pada 2023 menjadi dua pertiga pada 2026, dan diperkirakan akan mencapai 70% hingga 85% antara 2028 dan 2030. Perubahan struktural ini sedang mendefinisikan ulang medan perang utama kompetisi chip—dari “siapa GPU pelatihan tercepat” menjadi “siapa biaya total inferensi chip-nya paling rendah dan throughput tertinggi”.

Pasar chip inferensi AI global diperkirakan bernilai $85,4 miliar pada 2024, dan akan tumbuh dari $105,47 miliar pada 2025 menjadi $570,77 miliar pada 2033, dengan tingkat pertumbuhan tahunan majemuk (CAGR) sebesar 23,5% selama periode prediksi. Di antaranya, pasar chip inferensi AI cloud diperkirakan bernilai $102,19 miliar pada 2025, dan akan meningkat menjadi $118,9 miliar pada 2026, serta mencapai $320,98 miliar pada 2032. Sementara itu, pasar edge AI chip (gabungan inferensi dan pelatihan) diperkirakan meningkat dari $34,4 miliar pada 2026 menjadi $96 miliar pada 2031.

Dalam siklus ekspansi ini, kekuatan antar jenis chip sedang mengalami perubahan halus dan mendalam. GPU tetap menjadi penguasa pasar terbesar, didukung oleh kebutuhan pelatihan dan inferensi, dan diperkirakan akan mempertahankan CAGR 20% hingga 2031. Namun, ASIC AI dianggap oleh banyak lembaga sebagai segmen yang paling cepat pertumbuhannya. Analis JP Morgan memperkirakan pasar ASIC AI digital akan mencapai sekitar $60-70 miliar pada 2026, dan akan mempertahankan CAGR lebih dari 40-50% dalam beberapa tahun ke depan.

Lebih menarik lagi, kembalinya CPU ke panggung utama. Dalam tiga tahun terakhir, CPU berada di pinggiran narasi AI jangka panjang, tetapi ledakan kebutuhan inferensi sedang mengubah pola ini.

Mengapa CPU Kembali ke Panggung Utama

Perbedaan mendasar secara logika komputasi antara inferensi dan pelatihan AI. Pelatihan adalah proses operasi matriks paralel berskala besar—puluhan triliun operasi floating point dapat dilakukan secara bersamaan di puluhan ribu inti GPU, ini adalah domain kekuatan mutlak GPU. Tetapi inferensi, terutama inferensi AI agenik (Agentic AI), melibatkan pengaturan tugas, pemanggilan alat, penalaran logika multi-langkah, dan pengambilan keputusan berurutan. Beban kerja ini bukan murni komputasi paralel, melainkan sangat bergantung pada kontrol logika kompleks dan kemampuan serial yang dikuasai CPU.

Sebuah studi dari Georgia Tech dan Intel menunjukkan bahwa dalam skenario AI agenik, 50% hingga 90% latensi berasal dari CPU, bukan dari chip daya komputasi—karena model besar harus memanggil plugin, melakukan pencarian online, dan memproses logika multi-langkah, semua dikendalikan oleh CPU. Nvidia sendiri juga mengakui kenyataan ini pada Maret 2026: eksekutifnya Dion Harris secara terbuka menyatakan, “CPU sedang menjadi bottleneck dalam alur kerja AI”—ini dari perusahaan yang meyakini “GPU adalah satu-satunya chip yang dibutuhkan untuk AI”.

Perubahan rasio konfigurasi ini secara visual menunjukkan tren tersebut. Pada tahap pelatihan AI, rasio konfigurasi CPU terhadap GPU biasanya ekstrem di 1:8, dengan GPU menanggung sebagian besar beban komputasi. Tetapi memasuki era inferensi, menurut laporan TrendForce, rasio ini dengan cepat mendekati 1:1 hingga 1:2. CEO Intel, Pat Gelsinger, dalam konferensi laporan keuangan kuartal pertama 2026 juga menyatakan bahwa beban pelatihan biasanya membutuhkan 7-8 GPU untuk satu CPU, sementara beban inferensi telah menyempit menjadi 3-4 GPU untuk satu CPU, dan ke depan diperkirakan akan semakin mendekati keseimbangan 1:1.

Mengacu pada perkiraan CEO Nvidia, Jensen Huang: setiap GW pusat data membutuhkan sekitar 300.000 GPU Rubin, dan dengan konversi ke CPU ARM dengan 136 inti per chip, setiap GW pusat data membutuhkan sekitar 221.000 CPU, sehingga rasio CPU terhadap GPU baru sekitar 1:1,4. Dibandingkan dengan rasio era GPU dominan sebelumnya, posisi CPU telah meningkat secara signifikan.

Parit Perlindungan GPU dan Tantangan dalam Inferensi

Meskipun CPU sedang merebut kembali posisi, GPU tetap menjadi posisi tak tergantikan dalam tahap inferensi AI, terutama karena dua dimensi utama: bandwidth memori dan throughput paralel.

Dalam proses inferensi LLM, setiap token yang dihasilkan harus membaca miliaran hingga ratusan miliar parameter, menjadikannya tugas yang sangat bergantung memori. Solusi CPU bergantung pada memori DDR sistem, dengan bandwidth biasanya sekitar 50-100GB/s; sedangkan GPU menggunakan GDDR6X atau HBM, dengan bandwidth bisa mencapai lebih dari 800GB/s, dan HBM2e high-end GPU bahkan bisa mencapai 1,5TB/s—20 kali lipat dari CPU. Dalam inferensi model Llama 3.1 8B, solusi CPU hanya mampu 819 token/detik, sedangkan cluster 8 GPU mampu mencapai 46.841 token/detik. Ketika permintaan bersamaan meningkat, performa CPU turun drastis dari 819 menjadi 257 token/detik, sementara cluster 8 GPU hampir tidak mengalami penurunan.

Dalam hal densitas daya komputasi, GPU mampu melakukan paralelisasi melalui ribuan CUDA core, mendukung format presisi rendah seperti FP4/FP8, dan mencapai ratusan TFLOPS, sedangkan CPU biasanya hanya di kisaran 1-10 TFLOPS untuk FP32.

Data ini menunjukkan bahwa dalam skenario inferensi yang membutuhkan throughput tinggi dan banyak permintaan bersamaan—seperti layanan AI cloud skala besar—GPU tetap menjadi solusi terbaik. Posisi dominan Nvidia di bidang ini belum tergoyahkan. Menurut SemiAnalysis, pada kuartal pertama 2026, pangsa pasar Nvidia di chip pelatihan AI adalah 92%, dan di chip inferensi 78%. IDC memperkirakan Nvidia menguasai sekitar 81% pangsa pasar chip AI. Pasar akselerator AI diperkirakan mencapai sekitar $160 miliar pada 2025 dan akan menuju lebih dari $200 miliar pada 2026, dengan pengeluaran inferensi diperkirakan menyumbang dua pertiga dari total tersebut.

Namun, yang perlu diperhatikan, pangsa GPU dalam inferensi menghadapi tekanan dari beberapa arah—kembalinya CPU, kompetisi dari ASIC khusus, dan pertimbangan struktur biaya.

Perlawanan CPU dalam Era Inferensi

Penilaian ulang terhadap nilai CPU dalam inferensi telah berubah menjadi kekuatan pasar yang terukur.

Pasar prosesor pusat data didorong oleh lonjakan kebutuhan beban kerja AI generatif, dan diperkirakan akan tumbuh dari $215 miliar pada 2025 menjadi $656 miliar pada 2031. Guotai Securities menyatakan bahwa pusat data skala besar telah memasuki “siklus peningkatan”, dan pengiriman server CPU diperkirakan akan meningkat 25% pada 2026.

AMD menjadi salah satu yang paling diuntungkan dari tren ini. Permintaan server AI mendorong pengiriman CPU EPYC, dan generasi kelima Turin sudah menguasai pangsa pasar CPU server yang cukup besar. Pada 2026, bisnis CPU server diperkirakan akan tumbuh minimal 50%. Analis Bernstein memperkirakan penjualan prosesor EPYC flagship AMD akan melonjak 30% pada 2026. Di pasar CPU pusat data, hingga awal 2026, Intel memegang sekitar 60% pangsa pasar, AMD sekitar 24%, dan Nvidia sekitar 6%. AMD juga bersaing di pasar GPU AI dengan akselerator Instinct, menempatkan mereka dalam posisi unik dalam pengaturan ganda di era inferensi.

Intel juga aktif menyesuaikan strateginya. Pada Computex Juni 2026, CEO Intel, Pat Gelsinger, mengumumkan dengan teknologi proses 18A dan arsitektur decoupled rack-level: era CPU inferensi kembali ke panggung utama, dan infrastruktur AI beralih dari “beli paket lengkap” ke “bangun sendiri”. Prosesor Xeon Intel dilengkapi teknologi matrix extension tingkat tinggi (AMX), yang dapat mempercepat inferensi model bahasa besar skala menengah tanpa perlu GPU atau akselerator AI lainnya.

Perubahan paling simbolik datang dari Nvidia sendiri. Perusahaan yang mendefinisikan era AI dengan GPU ini, pada 2026 meluncurkan lini CPU Grace dan Vera, di mana Vera dirancang khusus untuk inferensi dan AI agenik. Nvidia memperkirakan pendapatan bisnis CPU akan mencapai $20 miliar pada 2026. Selain itu, Nvidia dan Arm secara bersamaan meluncurkan produk CPU independen pada 2026, menandai masuknya perusahaan raksasa GPU ini ke jalur CPU.

Bangkitnya ASIC dan Chip Khusus: Jalan Ketiga yang Muncul

Di luar narasi biner GPU dan CPU, ASIC (sirkuit terpadu khusus aplikasi) menjadi variabel yang tumbuh paling cepat dalam pasar inferensi.

TD Cowen memperkirakan pangsa accelerator komersial akan turun dari sekitar 91% pada 2025 menjadi sekitar 75% pada 2030, sementara ASIC kustom akan naik dari sekitar 9% menjadi sekitar 25%. Pengiriman server ASIC diperkirakan tumbuh 44,6% pada 2026, sedangkan pengiriman server GPU hanya 16,1%, tiga kali lipat lebih kecil.

Perusahaan cloud skala besar mempercepat pengembangan chip inferensi sendiri. TPU Google, Inferentia AWS, MTIA Meta, dan LPU (Language Processing Unit) dari Groq—semua adalah ASIC yang dioptimalkan untuk inferensi. Broadcom, pada kuartal kedua 2026, melaporkan pendapatan AI sebesar $10,8 miliar, naik 143% YoY, dan panduan pendapatan AI tahunan sebesar $56 miliar, naik 180%. Broadcom memperkirakan akan menguasai sekitar 60% pangsa pasar ASIC AI kustom.

Tren ini menandakan pasar chip inferensi sedang beralih dari “GPU umum yang dominan” ke “ekosistem multi-chip: GPU + CPU + ASIC”. GPU bertanggung jawab atas pelatihan intensif dan inferensi skala besar, CPU mengatur tugas dan kontrol sistem, sementara ASIC mencapai efisiensi energi tertinggi untuk beban inferensi tertentu.

Struktur Biaya dan Reposisi Ekonomi Inferensi

Dalam tahap inferensi, pilihan chip akhirnya kembali ke satu pertanyaan utama: berapa biaya inferensi per juta token?

Pada tahap pelatihan, akurasi model dan waktu pelatihan adalah indikator utama, dan toleransi biaya relatif tinggi. Tetapi inferensi adalah aktivitas produksi berkelanjutan dan frekuensi tinggi—setiap panggilan API, setiap permintaan pengguna, langsung menimbulkan biaya. Ini mengubah kompetisi chip inferensi dari “kinerja mutlak” menjadi “throughput efektif per biaya”.

Solusi GPU lebih mahal dari segi perangkat keras. Sebagai contoh, AMD MI300X harganya sekitar $10.000–$15.000, sedangkan Nvidia H100 berkisar $25.000–$40.000. Tetapi biaya per unit daya komputasi GPU lebih rendah—misalnya, berdasarkan contoh dari penyedia cloud, biaya token per detik dari instance GPU 40-60% lebih rendah daripada instance CPU. Solusi CPU memiliki keunggulan dalam tidak memerlukan investasi perangkat keras tambahan, cocok untuk skenario tugas tunggal dengan permintaan rendah dan latensi rendah.

Namun, seiring skala inferensi membesar, biaya marginal solusi CPU meningkat lebih cepat—ketika permintaan bersamaan meningkat, CPU harus melakukan penjadwalan waktu dan konteks switching, yang biaya overheadnya meningkat secara eksponensial dengan jumlah permintaan bersamaan. Ini berarti dalam deployment inferensi skala besar, investasi awal yang tinggi pada GPU atau ASIC seringkali mampu memberikan ROI jangka panjang yang lebih baik melalui throughput lebih tinggi dan biaya per unit yang lebih rendah.

Penutup

Kenaikan proporsi kebutuhan daya komputasi inferensi dari sepertiga menjadi dua pertiga mencerminkan perubahan mendalam dalam logika kompetisi industri chip.

Bagi Nvidia, keunggulan absolutnya di pasar pelatihan (sekitar 90%) dalam jangka pendek sulit digoyahkan, tetapi kompetisi di pasar inferensi akan semakin intensif. New Street Research bahkan memprediksi bahwa pangsa inferensi Nvidia bisa turun ke 20-30% pada 2028. Bahkan prediksi konservatif Bloomberg Intelligence—Nvidia tetap mempertahankan 70-75% pangsa pasar hingga 2030—bukti bahwa pengiriman ASIC akan tumbuh jauh melebihi GPU.

Bagi AMD dan Intel, kenaikan kembali permintaan CPU di era inferensi adalah peluang struktural. AMD dengan strategi dual-line EPYC CPU dan Instinct GPU, serta Intel dengan proses 18A dan iterasi prosesor Xeon, berusaha merebut peluang ini.

Bagi penyedia cloud dan pengembang aplikasi AI, meningkatnya pilihan chip berarti ruang optimalisasi biaya yang lebih rinci. Dari GPU umum ke ASIC kustom, dari inferensi CPU ke akselerasi GPU, pemilihan hardware semakin bergantung pada karakteristik beban kerja—skala model, kebutuhan latensi, volume permintaan, dan anggaran biaya.

Kebutuhan daya komputasi inferensi meningkat lebih cepat dari pelatihan. Pergeseran fokus dari pelatihan ke inferensi ini sedang merombak seluruh rantai industri, dari desain chip hingga arsitektur pusat data. GPU tidak akan kehilangan posisinya, tetapi tidak lagi menjadi satu-satunya jawaban.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan