Baru saja menangkap sesuatu yang diam-diam mengubah seluruh permainan infrastruktur AI, dan jujur saja ini gila betapa sedikit orang yang membicarakannya.



Selama bertahun-tahun kita semua terobsesi dengan kelangkaan GPU—di situlah komputasi terjadi, kan? Tapi inilah masalahnya: kita telah melihat masalahnya dengan salah. Kendala sebenarnya bukan lagi inferensi. Itu CPU. Dan maksud saya serius—ketika kamu perlu mengorkestrasi alur kerja agen yang kompleks, menangani panggilan API, mengelola basis data, dan berurusan dengan jendela konteks besar yang tidak muat di memori GPU, tiba-tiba prosesor kamu menjadi titik lemah sementara GPU mahal kamu hanya duduk menunggu.

Izinkan saya menjelaskan apa yang sebenarnya terjadi di pasar. CEO AMD Lisa Su pada dasarnya mengonfirmasi bahwa pergeseran ini nyata. Pendapatan pusat data mereka mencapai $5,4 miliar kuartal lalu dengan lonjakan 39% dari tahun ke tahun. Prosesor EPYC generasi kelima saja menyumbang lebih dari setengah pendapatan CPU server mereka, dan kita melihat pertumbuhan lebih dari 50% dalam instance cloud yang berjalan di EPYC. Untuk pertama kalinya, AMD menguasai lebih dari 40% pangsa pasar CPU server. Itu bukan kebetulan—itu karena semua orang tiba-tiba menyadari mereka membutuhkan kekuatan CPU yang serius untuk menjalankan agen AI secara skala besar.

Sementara itu, Intel sedang berjuang tapi bermain cerdas. Mereka baru saja menandatangani kontrak multi-tahun dengan Google secara khusus untuk menyebarkan prosesor Xeon di pusat data AI. Tawaran mereka? CPU dan akselerator khusus sekarang adalah penggerak kinerja utama, bukan sekadar pendukung. Elon Musk bahkan memesan chip kustom dari Intel untuk proyek Terafab-nya—itu sinyal besar tentang ke mana infrastruktur menuju.

Inilah mengapa ini penting: beban kerja agen secara fundamental berbeda dari chatbot. Dengan agen, kamu tidak hanya menghasilkan token—kamu melakukan penalaran multi-langkah, mengorkestrasi API, mengelola status, membaca dan menulis ke basis data. Sebuah makalah dari Georgia Tech tahun lalu menunjukkan bahwa penanganan alat di sisi CPU bisa menyumbang 50% hingga 90% dari total latensi. GPU sudah siap, tapi CPU masih menunggu respons alat. Ditambah lagi jendela konteks yang sekarang mencapai lebih dari satu juta token, dan tiba-tiba kamu membutuhkan memori CPU dan bandwidth besar hanya untuk menyimpan cache KV yang tidak muat di GPU.

Respons NVIDIA menarik. CPU Grace mereka hanya memiliki 72 inti dibandingkan dengan 128 inti AMD atau lineup tipikal Intel. Tapi itu sengaja—mereka mengoptimalkan efisiensi antara CPU dan GPU daripada jumlah inti mentah. Mereka mendorong gagasan bahwa CPU benar-benar adalah pusat koordinasi, bukan prosesor serba guna. Dengan interkoneksi NVLink mereka yang mencapai 1,8 TB/s, CPU bisa mengakses memori GPU secara langsung, yang sepenuhnya mengubah cara kamu mengelola cache KV besar ini.

Sinyal pasar sangat jelas. Bank of America memprediksi pasar CPU bisa berlipat ganda dari $27 miliar menjadi $60 miliar pada tahun 2030, hampir seluruhnya didorong oleh AI. Dan dengar ini—dalam kemitraan Amazon $38 miliar dengan OpenAI, mereka secara eksplisit berencana menyebarkan puluhan juta CPU. Itu metrik baru. Kita tidak lagi berbicara ratusan ribu GPU; kita berbicara membangun seluruh lapisan infrastruktur orkestrasi CPU.

Apa yang benar-benar terjadi adalah kita bertransisi dari era yang dibatasi GPU ke era efisiensi tingkat sistem. Perusahaan yang bisa menemukan cara menyeimbangkan kolaborasi CPU-GPU, mengelola hierarki memori besar, dan menangani alur kerja agen yang kompleks secara efisien—merekalah yang menang. Ini bukan lagi tentang komponen individual. Ini tentang seluruh sistem yang bekerja sama. Dan jika kamu tidak memikirkan strategi CPU-mu di 2026, kamu sudah tertinggal.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan