Minggu ini Cerebras go public, artikel terbaru Ben Thompson menjelaskan secara mendalam: AI berevolusi dari “ngobrol” menjadi “melaksanakan tugas secara mandiri”, seluruh hambatan arsitektur chip pun berubah.

Kamu menunggu chat dengan豆包 untuk kecepatan; saat Kimi Claw menjalankan tugas selama 5 jam untukmu, dia tidak peduli apakah 3 detik lebih cepat atau 30 detik lebih lambat—yang dia pedulikan adalah apakah dia bisa mengingat konteks, apakah bisa bekerja terus-menerus. Setiap langkah eksekusi, memori kerja (KV Cache) membesar satu lapis. GPU dirancang untuk “manusia menunggu di depan layar”: saat prefill, memori video tidak aktif, saat decode, daya komputasi tidak aktif—setengah waktu hanya menunggu.

Yang benar-benar membatasi bukanlah seberapa cepat dihitung, melainkan berapa banyak yang bisa disimpan dan seberapa cepat bisa dibaca. Lebih esensial lagi, agent yang berjalan lama mengubah KV Cache dari cache sementara menjadi memori kerja yang permanen. Siapa yang bisa membuat memori ini bertahan lebih lama, digunakan kembali lebih tinggi, dan biayanya lebih rendah, dialah yang menguasai kunci ekonomi Agent.

Ini jauh lebih penting daripada skor pengujian.

Kalau bicara waktu peluncuran, mendirikan perusahaan chip pada Mei 2026 hampir sempurna. Reuters melaporkan:

Dua orang yang mengetahui mengatakan kepada Reuters hari Minggu, didorong oleh permintaan pasar terhadap saham perusahaan chip AI ini yang terus meningkat, Cerebras Systems kemungkinan besar akan menaikkan skala dan harga IPO-nya pada hari Senin. Mereka menyatakan perusahaan mempertimbangkan menaikkan kisaran harga dari 115–125 dolar per saham menjadi 150–160 dolar, dan jumlah saham yang diterbitkan dari 28 juta menjadi 30 juta; karena informasinya belum dipublikasikan, keduanya meminta anonimitas.

Kenaikan harga saham semikonduktor ini didorong utama oleh AI—terutama karena pasar perlahan menyadari: Agent cerdas (Agents) akan menyerap kekuatan komputasi yang sangat besar (Compute). Tapi proposisi yang ditunjuk Cerebras lebih luas: sejauh ini, narasi kekuatan AI hampir hanya tentang GPU, hanya tentang Nvidia; sedangkan gambaran masa depan akan semakin heterogen (Heterogeneous).

Era GPU

Kisah bagaimana GPU menjadi pusat AI sudah umum, secara singkat:

Seperti menggambar pixel di layar adalah proses paralel—semakin banyak unit pemrosesan, semakin cepat rendering grafis—begitu juga perhitungan AI: jumlah unit pemrosesan langsung menentukan kecepatan komputasi.
Nvidia memanfaatkan tren ini: mereka membuat prosesor grafis menjadi dapat diprogram (Programmable), dan dengan ekosistem perangkat lunak lengkap CUDA, mereka membawa kemampuan ini ke semua pengembang.
Perbedaan mendasar antara grafis dan AI terletak pada skala masalah—model jauh lebih besar daripada tekstur dalam video game. Ini memicu dua evolusi berantai: kapasitas memori bandwidth tinggi (HBM, High-bandwidth memory) pada satu GPU meningkat pesat; serta terobosan dalam interkoneksi antar chip (Chip-to-chip networking) memungkinkan beberapa chip bekerja sebagai satu sistem yang dapat diakses (Addressable system). Nvidia memimpin di kedua jalur ini.
Penggunaan utama GPU selalu untuk pelatihan, dan pelatihan sangat menuntut poin ketiga di atas. Setiap langkah pelatihan sangat paralel, tetapi antar langkah bersifat serial: sebelum melangkah ke berikutnya, setiap GPU harus menyinkronkan hasilnya ke semua GPU lain. Inilah sebabnya model dengan triliunan parameter harus dimuat ke dalam memori gabungan puluhan ribu GPU—dan GPU-GPU ini harus bisa berkomunikasi seperti satu mesin. Nvidia menguasai dua tantangan ini: pertama, mengamankan pasokan HBM sebelum industri lain; kedua, investasi besar dalam teknologi jaringan.

Tentu saja, pelatihan bukan satu-satunya beban kerja AI, ada juga inferensi (Inference). Inferensi terdiri dari tiga bagian utama:

1. Pre-fill (Prefill): Mengkode semua konten yang perlu diketahui model bahasa besar (LLM) menjadi keadaan yang dapat dipahami; ini sangat paralel dan membutuhkan daya komputasi tinggi.

2. Decode bagian 1: Membaca KV cache (KV Cache)—yang menyimpan konteks termasuk output dari tahap prefill—untuk perhitungan perhatian. Ini adalah langkah serial yang sangat bergantung bandwidth, dan kebutuhan memorinya bervariasi serta meningkat.

3. Decode bagian 2: Melakukan perhitungan feed-forward pada bobot model; ini juga langkah serial yang sangat bergantung bandwidth, dan kebutuhan memorinya bergantung pada ukuran model.

Dua langkah decode ini bergantian di setiap lapisan model (berjalan secara berseling, bukan sekadar berurutan), artinya, decode bersifat serial dan dibatasi oleh bandwidth memori (Memory-bandwidth bound). Setiap token yang dihasilkan harus membaca lengkap dua pool memori berbeda: KV cache yang menyimpan konteks dan bertambah setiap token, serta bobot model itu sendiri. Keduanya harus dibaca lengkap untuk menghasilkan satu token output.

GPU secara sempurna memenuhi ketiga kebutuhan ini: menyediakan daya komputasi tinggi untuk prefill, memori HBM yang cukup untuk KV cache dan bobot, serta menggabungkan memori melalui interkoneksi chip saat memori internal tidak cukup. Dengan kata lain, arsitektur yang cocok untuk pelatihan juga cocok untuk inferensi—lihat saja transaksi antara SpaceX dan Anthropic. Dalam blog resmi, Anthropic menyebutkan:

“Kami telah menandatangani kesepakatan untuk menggunakan seluruh kapasitas komputasi pusat data SpaceX Colossus 1. Ini memberi kami kapasitas lebih dari 300 MW (lebih dari 220.000 GPU Nvidia). Ini akan langsung meningkatkan layanan untuk pengguna Claude Pro dan Claude Max.”

SpaceX menyimpan Colossus 2—diduga untuk pelatihan model masa depan dan inferensi model yang ada. Mereka mampu melakukan keduanya di pusat data yang sama karena model xAI saat ini tidak terlalu besar; yang lebih penting, mereka bisa melakukan ini karena pelatihan dan inferensi keduanya bisa dilakukan di GPU. Faktanya, GPU yang digunakan oleh Anthropic awalnya juga untuk pelatihan; fleksibilitas GPU ini adalah keunggulan besar.

Mengulas Cerebras

Perangkat Cerebras benar-benar berbeda. Meski wafer silikon berdiameter 300mm, batas “reticle”—area maksimum yang bisa dipaparkan oleh alat litografi—sekitar 26mm x 33mm. Ini adalah batas ukuran efektif chip; melewati batas ini, harus menghubungkan dua chip secara eksternal melalui “layer perantara” (interposer), seperti yang dilakukan Nvidia di B200. Cerebras mengembangkan metode pengkabelan melintasi “garis skrap” (Scribe lines, batas antara eksposur masker), mengubah seluruh wafer menjadi satu chip tunggal, tanpa perlu interkoneksi antar chip yang lambat.

Hasilnya: satu chip dengan kekuatan komputasi luar biasa dan SRAM dalam jumlah besar, dengan kecepatan akses sangat tinggi. Perbandingan data: WSE-3 terbaru memiliki 44GB SRAM di chip, bandwidth mencapai 21 PB/s; sedangkan Nvidia H100 memiliki 80GB HBM, bandwidth 3,35 TB/s. Artinya, meskipun SRAM WSE-3 hanya setengah dari H100, bandwidth memorinya 6000 kali lipat.

Perbandingan ini dilakukan karena H100 adalah chip inferensi paling umum saat ini, dan Cerebras sangat unggul di inferensi. Kamu bisa melatih dengan Cerebras, tapi jaringan antar chip-nya tidak menarik, artinya sebagian besar kekuatan dan memori di chip tidak digunakan; yang benar-benar menarik adalah kemampuannya menghasilkan token jauh lebih cepat daripada GPU.

Namun, batasan pelatihan juga berlaku untuk inferensi: selama data muat di memori internal, kecepatan Cerebras sangat optimal; begitu kebutuhan memori melebihi batas (model lebih besar, atau KV cache lebih panjang), Cerebras tidak lagi efisien, apalagi dari segi biaya. Teknologi “wafer penuh sebagai chip” ini menimbulkan tantangan besar dalam yield, sehingga biaya meningkat secara signifikan.

Namun, saya percaya bahwa chip gaya Cerebras akan tetap ada pasarnya: saat ini perusahaan ini menekankan kecepatan sebagai keunggulan praktis—inferensi berarti menghasilkan banyak token, yang setara dengan kecepatan berpikir yang lebih cepat. Tapi saya melihat ini sebagai use case sementara, karena nanti, waktu yang dibutuhkan manusia untuk mendapatkan jawaban akan menjadi faktor utama. Dengan semakin meluasnya perangkat AI yang dipakai manusia, kecepatan interaksi (terutama suara, yang bergantung pada kecepatan token) akan sangat memengaruhi pengalaman pengguna.

Agentic Inference

Saya sebelumnya menyebutkan, dalam era LLM, kita mengalami tiga titik balik:

1. ChatGPT membuktikan kegunaan prediksi token.

2. o1 memperkenalkan konsep inferensi, yaitu semakin banyak token, semakin baik jawaban.

3. Opus 4.5 dan Claude Code memperkenalkan Agents pertama yang praktis, mampu menggunakan model inferensi dan kerangka kerja yang meliputi penggunaan alat, verifikasi kerja, dan lain-lain untuk menyelesaikan tugas secara nyata.

Walaupun semua ini bagian dari “inferensi”, saya berpendapat bahwa membedakan antara jawaban (Answer inference)—yang saya sebut “respon inferensi”—dan pelaksanaan tugas (task execution)—yang saya sebut “agentic inference”—mulai menjadi jelas. Target pasar Cerebras adalah “respon inferensi”; sedangkan, dalam jangka panjang, saya yakin arsitektur “agentic inference” akan berbeda sama sekali dari jalur Cerebras maupun GPU.

Saya pernah menyebutkan bahwa inferensi cepat untuk pengkodean hanyalah use case sementara. Saat ini, pengkodean dengan LLM masih membutuhkan campur tangan manusia: manusia mendefinisikan tugas, memeriksa kode, mengajukan pull request (PR), dll; tapi tidak sulit membayangkan bahwa di masa depan, semua ini akan sepenuhnya otomatis. Ini akan berlaku luas untuk pekerjaan agent: kekuatan sejati agent bukan untuk membantu manusia, melainkan bekerja secara independen tanpa campur tangan manusia.

Dengan logika ini, solusi terbaik untuk agentic inference akan sangat berbeda dari respon inferensi. Respon inferensi sangat mengutamakan kecepatan token; sedangkan agentic inference sangat mengutamakan memori (Memory).** Agent membutuhkan konteks, status, dan riwayat. Sebagian tersimpan di KV cache aktif, sebagian di memori utama atau SSD, dan lebih banyak lagi di basis data, log, embedding, dan object storage. Intinya: agentic inference tidak lagi sekadar GPU menjawab pertanyaan, melainkan membangun sistem memori hierarkis yang kompleks di sekitar model.

Yang sangat penting, hierarki memori khusus untuk agent ini mengandung trade-off: mengorbankan kecepatan demi kapasitas. Dan, jika tidak ada campur tangan manusia secara real-time, kecepatan yang lebih rendah tidak lagi menjadi prioritas utama. Jika sebuah agent berjalan semalaman, dia tidak peduli dengan latensi untuk pengalaman pengguna; dia hanya peduli menyelesaikan tugas. Jika metode memori baru memungkinkan tugas kompleks, sedikit penundaan bisa diterima.

Sementara itu, jika latensi bukan faktor utama, kejar-kejaran terhadap kekuatan komputasi dan memori bandwidth tinggi (HBM) menjadi kurang relevan: jika latensi bukan batas keras, memori yang lebih lambat dan murah (seperti DRAM tradisional) menjadi lebih menarik. Jika seluruh sistem lebih banyak menunggu respons memori, chip tidak perlu proses manufaktur paling canggih. Ini akan memicu perubahan arsitektur mendalam, tapi tidak berarti arsitektur lama akan hilang:

Pelatihan (Training): akan tetap penting, arsitektur Nvidia saat ini (kekuatan tinggi, memori bandwidth tinggi, jaringan cepat) akan terus mendominasi.

Respon inferensi (Answer inference): akan menjadi pasar kecil tapi penting, dengan kecepatan ekstrem (seperti Cerebras atau Groq) sangat berguna.

Agentic inference: akan secara bertahap terlepas dari GPU. Kekurangan GPU dalam prefill dan decode—memboroskan memori dan daya komputasi—akan menjadi kelemahan. Sebaliknya, sistem dengan kapasitas besar dan memori murah, dengan kekuatan komputasi yang cukup, akan mendominasi. Bahkan, kecepatan CPU dalam menjalankan alat mungkin lebih penting daripada GPU.

Selain itu, kategori ini berbeda dalam skala dan pentingnya. Secara spesifik, agentic inference akan menjadi pasar terbesar di masa depan karena tidak terbatas oleh jumlah manusia atau waktu. Saat ini, agent hanya sekadar respon yang canggih; masa depan, agent sejati akan mampu menjalankan instruksi dari komputer lain, dan pasar ini tidak akan bergantung pada populasi, melainkan pada ekspansi kekuatan komputasi.

Implikasi Agentic Inference terhadap Kekuatan Komputasi

Hingga saat ini, menyebut “berkembang seiring ekspansi kekuatan komputasi” biasanya mengandung harapan terhadap Nvidia. Tapi, keunggulan relatif Nvidia sejauh ini sangat bergantung pada latensi: chip mereka sangat cepat, tapi untuk menjaga agar kekuatan tidak menganggur, mereka harus menginvestasikan besar dalam HBM dan jaringan. Jika latensi tidak lagi menjadi batas utama, solusi Nvidia tampaknya tidak lagi layak membayar premi.

Nvidia juga menyadari perubahan ini: mereka meluncurkan kerangka inferensi Dynamo untuk membantu memecah bagian-bagian inferensi, dan produk memori serta server CPU terpisah untuk memperbesar cache KV dan mempercepat panggilan alat, agar GPU mahal tetap sibuk. Tapi, pada akhirnya, cloud provider besar mungkin mencari solusi alternatif di luar GPU untuk tugas agentic inference demi biaya dan kemudahan.

Sementara itu, China meski kekurangan kekuatan komputasi top-tier, memiliki semua yang dibutuhkan untuk agentic inference: GPU cukup cepat, CPU cukup cepat, DRAM dan HDD juga tersedia. Tantangannya tentu di kekuatan pelatihan; selain itu, respon inference mungkin lebih penting untuk keamanan nasional (terutama aplikasi militer).

Satu sudut pandang menarik adalah Space (Ruang): chip yang lebih lambat justru membuat “data center luar angkasa” lebih feasible. Pertama, jika memori bisa eksternal, chip bisa dibuat lebih sederhana dan lebih dingin. Kedua, proses lama dengan ukuran fisik lebih besar lebih tahan terhadap radiasi luar angkasa. Ketiga, proses lama cenderung lebih hemat energi dan menghasilkan panas lebih sedikit. Keempat, proses lama yang tidak canggih lebih andal, sangat penting untuk satelit yang tidak bisa diperbaiki.

CEO Nvidia Jensen Huang sering mengatakan “Hukum Moore sudah mati”; maksudnya, kecepatan masa depan akan bergantung pada inovasi sistem secara keseluruhan. Tapi, saat agent bisa beroperasi secara independen dari manusia, mungkin pelajaran paling mendalam adalah: Hukum Moore sudah tidak relevan lagi. Kita mendapatkan lebih banyak kekuatan komputasi dengan menyadari bahwa kekuatan yang kita miliki saat ini sebenarnya sudah “cukup baik”.

NVDAX-4,96%

XAI-5,28%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
1.84M Popularitas
#
CLARITYActPassesSenateCommittee
3.39M Popularitas
#
IsraelStrikesIranBTCPlunges
46.85K Popularitas
#
#DailyPolymarketHotspot
958.02K Popularitas
#
BitcoinVShapedReversalBack
227.02M Popularitas

Disematkan

peta situs

Mengerti Cerebras: Kekuatan komputasi mendorong pemikiran AI, memori memberdayakan Agen untuk bertindak

Era GPU

Mengulas Cerebras

Agentic Inference

Implikasi Agentic Inference terhadap Kekuatan Komputasi

Topik Trending

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Disematkan