Mengerti Cerebras: Kekuatan komputasi mendorong pemikiran AI, memori memberdayakan Agen untuk bertindak

Penulis: Ben Thompson

Kekuatan komputasi membuat AI belajar berpikir, memori membuat Agent belajar bekerja.

Minggu ini Cerebras go public, artikel terbaru Ben Thompson menjelaskan secara mendalam: AI berevolusi dari “obrolan” menjadi “pengeksekusian tugas otonom”, dan seluruh hambatan arsitektur chip pun berubah.

Kamu menunggu chat dengan豆包 adalah untuk kecepatan; saat Kimi Claw menjalankan tugas selama 5 jam untukmu, dia tidak peduli apakah 3 detik lebih cepat atau 30 detik lebih lambat—yang dia pedulikan adalah apakah dia bisa mengingat konteks, apakah bisa bekerja terus-menerus. Setiap langkah eksekusi, memori kerja (KV Cache) membesar satu lapis. GPU dirancang untuk “orang menunggu di layar”: saat prefill, memori video tidak aktif, saat decode, daya komputasi tidak aktif—setengah waktu hanya menunggu.

Yang benar-benar menjadi hambatan bukanlah seberapa cepat menghitung, melainkan berapa banyak yang bisa disimpan dan seberapa cepat bisa dibaca. Lebih esensial lagi, agent yang berjalan lama mengubah KV Cache dari cache sementara menjadi memori kerja permanen. Siapa yang bisa membuat memori ini bertahan lebih lama, digunakan kembali lebih tinggi, dan biayanya lebih rendah, dialah yang menguasai kunci ekonomi Agent.

Ini jauh lebih penting daripada skor benchmark.

Kalau bicara waktu peluncuran, mendirikan perusahaan chip pada Mei 2026 hampir sempurna. Reuters melaporkan akhir pekan lalu:

Dua orang yang mengetahui situasi mengatakan kepada Reuters bahwa, didorong oleh permintaan pasar terhadap saham perusahaan chip AI ini yang terus meningkat, Cerebras Systems paling cepat akan menyesuaikan skala dan harga IPO-nya pada hari Senin. Mereka menyatakan bahwa perusahaan mempertimbangkan menaikkan kisaran harga dari 115–125 dolar per saham menjadi 150–160 dolar, dan jumlah saham yang diterbitkan dari 28 juta menjadi 30 juta; karena informasinya belum dipublikasikan, kedua sumber meminta anonimitas.

Lonjakan harga saham semikonduktor ini tentu didorong oleh AI—terutama karena pasar perlahan menyadari: Agent cerdas (Agents) akan menyerap kekuatan komputasi masif (Compute). Tapi proposisi yang dituju Cerebras lebih luas lagi: sejauh ini, narasi kekuatan AI hampir hanya tentang GPU, hanya tentang Nvidia; dan gambaran masa depan akan semakin heterogen.

Era GPU

Kisah bagaimana GPU menjadi pusat AI sudah umum, singkatnya:

  • Seperti menggambar pixel di layar adalah proses paralel—semakin banyak unit pemrosesan, semakin cepat rendering grafis—perhitungan AI juga demikian: jumlah unit pemrosesan langsung menentukan kecepatan komputasi.

  • Nvidia secara alami memanfaatkan “dual purpose” ini: membuat prosesor grafis menjadi dapat diprogram (Programmable), dan dengan ekosistem perangkat lunak lengkap CUDA, mereka membawa kemampuan ini ke semua pengembang.

  • Perbedaan mendasar antara grafis dan AI terletak pada skala masalah—model jauh lebih besar daripada tekstur dalam video game. Ini memicu dua evolusi berantai: kapasitas memori bandwidth tinggi (HBM) di satu GPU meningkat pesat; dan interkoneksi antar chip (Chip-to-chip networking) juga mengalami terobosan besar, memungkinkan beberapa chip bekerja sebagai sistem yang dapat diakses (Addressable system). Nvidia memimpin di kedua jalur ini.

  • Penggunaan utama GPU selalu untuk pelatihan, dan pelatihan sangat menuntut poin ketiga di atas. Setiap langkah pelatihan sangat paralel, tetapi antar langkah bersifat serial: sebelum melangkah ke langkah berikutnya, setiap GPU harus menyinkronkan hasilnya ke semua GPU lain. Inilah sebabnya model dengan triliunan parameter harus dimuat ke dalam memori gabungan puluhan ribu GPU—dan GPU ini harus bisa berkomunikasi seperti satu mesin. Nvidia menguasai dua tantangan ini: pertama, mengamankan pasokan HBM sebelum industri lain; kedua, investasi besar dalam teknologi jaringan.

Tentu saja, pelatihan bukan satu-satunya beban kerja AI, ada juga inferensi (Inference). Inferensi terdiri dari tiga bagian utama:

1. Pre-fill (Pengisian Awal): Mengkode semua konten yang perlu dipahami model bahasa besar (LLM) ke dalam keadaan yang dapat dipahami; ini sangat paralel dan membutuhkan daya komputasi tinggi.

2. Decode bagian 1: Membaca KV Cache—yang menyimpan konteks termasuk output dari tahap pre-fill—untuk perhitungan perhatian. Ini adalah langkah serial yang sangat bergantung bandwidth, dan kebutuhan memorinya bervariasi serta semakin besar.

3. Decode bagian 2: Melakukan perhitungan feed-forward pada bobot model; ini juga langkah serial yang sangat bergantung bandwidth, dan kebutuhan memorinya bergantung pada ukuran model.

Dua langkah decode ini bergantian di setiap lapisan model (berjalan secara berseling, bukan sekadar berurutan), artinya, decode bersifat serial dan terbatas oleh bandwidth memori. Setiap token yang dihasilkan harus membaca lengkap dua pool memori berbeda: KV cache yang menyimpan konteks dan bertambah setiap token, serta bobot model itu sendiri. Keduanya harus dibaca lengkap untuk menghasilkan satu token output.

GPU secara sempurna memenuhi ketiga kebutuhan ini: menyediakan daya komputasi tinggi untuk pre-fill, memori HBM yang cukup untuk KV cache dan bobot, serta menggabungkan memori melalui interkoneksi chip saat memori internal tidak cukup. Dengan kata lain, arsitektur yang cocok untuk pelatihan juga cocok untuk inferensi—lihat saja transaksi SpaceX dan Anthropic:

“Kami telah menandatangani perjanjian untuk menggunakan seluruh kapasitas komputasi pusat data SpaceX Colossus 1. Ini memberi kami kapasitas lebih dari 300 MW (lebih dari 220.000 GPU Nvidia). Ini akan langsung meningkatkan layanan untuk pengguna Claude Pro dan Claude Max.”

SpaceX menyimpan Colossus 2—diduga untuk pelatihan model masa depan dan inferensi model saat ini. Mereka mampu melakukan keduanya di pusat data yang sama karena model xAI saat ini tidak terlalu besar; yang lebih penting, mereka bisa melakukan ini karena pelatihan dan inferensi keduanya bisa dilakukan di GPU. Faktanya, GPU yang digunakan oleh Anthropic awalnya juga untuk pelatihan; fleksibilitas GPU adalah keunggulan besar.

Membaca Cerebras

Produk Cerebras benar-benar berbeda. Meski wafer silikon berdiameter 300mm, batasan “reticle”—yaitu area maksimum yang bisa dipaparkan oleh alat litografi—sekitar 26mm x 33mm. Ini adalah batas ukuran efektif chip; melampaui batas ini, harus menghubungkan chip secara eksternal melalui lapisan perantara, seperti yang dilakukan Nvidia di B200. Cerebras mengembangkan metode pengkabelan melintasi “garis skrap” (Scribe lines, batas antara eksposur masker), mengubah seluruh wafer menjadi satu chip tunggal, tanpa perlu interkoneksi antar chip yang lambat.

Hasilnya: satu chip dengan kekuatan komputasi luar biasa dan SRAM besar yang sangat cepat diakses. Perbandingan data: WSE-3 terbaru memiliki 44GB SRAM di chip, dengan bandwidth 21 PB/s; sedangkan Nvidia H100 memiliki 80GB HBM dengan bandwidth 3,35 TB/s. Artinya, meskipun SRAM WSE-3 hanya setengah dari H100, bandwidth memorinya 6000 kali lipat.

Perbandingan ini dilakukan karena H100 adalah chip inferensi paling umum saat ini, dan inferensi adalah bidang utama Cerebras. Kamu bisa melatih dengan Cerebras, tapi jaringan antar chip-nya tidak menarik, artinya sebagian besar kekuatan dan memori di chip tidak digunakan; yang benar-benar menarik adalah kemampuannya menghasilkan token jauh lebih cepat daripada GPU.

Namun, batasan pelatihan juga berlaku untuk inferensi: selama semua data muat di memori chip, kecepatan Cerebras luar biasa; begitu kebutuhan memori melebihi batas (model lebih besar, atau KV cache lebih panjang), Cerebras tidak lagi efisien, apalagi harganya. Teknologi “wafer penuh sebagai chip” ini menimbulkan tantangan besar dalam yield, sehingga biaya meningkat secara signifikan.

Namun, saya percaya bahwa chip gaya Cerebras akan tetap ada pasarnya: saat ini perusahaan ini menekankan kecepatan sebagai keunggulan praktis—inferensi berarti menghasilkan banyak token, yang setara dengan kecepatan berpikir yang lebih cepat. Tapi saya melihat ini sebagai use case sementara, alasannya akan dijelaskan nanti. Yang lebih penting adalah berapa lama manusia harus menunggu jawaban, dan seiring AI yang semakin banyak digunakan dalam perangkat wearable dan produk interaktif, kecepatan interaksi (terutama suara, yang bergantung pada kecepatan token) akan sangat memengaruhi pengalaman pengguna.

Agentic Inference

Saya sebelumnya menyebutkan, dalam era LLM kita mengalami tiga titik balik:

1. ChatGPT membuktikan kegunaan prediksi token.

2. o1 memperkenalkan konsep inferensi, yaitu semakin banyak token, semakin baik jawaban.

3. Opus 4.5 dan Claude Code memperkenalkan Agents pertama yang praktis, mampu menggunakan model inferensi dan kerangka kerja yang mencakup penggunaan alat, verifikasi kerja, dan lain-lain untuk menyelesaikan tugas secara nyata.

Walaupun semuanya termasuk dalam “inferensi”, saya percaya, membedakan antara jawaban—saya sebut “answer inference”—dan pelaksanaan tugas—saya sebut “agentic inference”—mulai menjadi jelas. Target pasar Cerebras adalah “answer inference”; dan dari sudut pandang jangka panjang, saya yakin arsitektur “agentic inference” akan berbeda total dari jalur Cerebras maupun GPU.

Saya pernah menyebutkan bahwa inferensi cepat untuk pengkodean hanyalah use case sementara. Saat ini, pengkodean dengan LLM masih membutuhkan campur tangan manusia: manusia mendefinisikan tugas, memeriksa kode, mengajukan pull request (PR), dll; tapi tidak sulit membayangkan bahwa di masa depan, semua ini akan sepenuhnya otomatis. Ini akan berlaku luas untuk pekerjaan agent: kekuatan sejati agent bukan untuk membantu manusia, melainkan bekerja secara independen tanpa campur tangan manusia.

Dengan demikian, solusi terbaik untuk inferensi agentic akan sangat berbeda dari answer inference. Answer inference sangat mengutamakan kecepatan token; sedangkan agentic inference paling penting adalah memori (Memory). Agent membutuhkan konteks, status, dan riwayat. Sebagian tersimpan di KV cache aktif, sebagian di memori utama atau SSD, dan lebih banyak lagi di basis data, log, embedding, dan object storage. Intinya: inferensi agentic tidak lagi sekadar GPU menjawab pertanyaan, melainkan membangun sistem memori hierarkis yang kompleks di sekitar model.

Yang sangat penting, hierarki memori khusus ini menunjukkan adanya trade-off: kecepatan versus kapasitas. Dan jika tidak ada campur tangan manusia secara real-time, kecepatan yang lebih rendah tidak lagi menjadi masalah utama. Jika sebuah agent berjalan sepanjang malam, dia tidak peduli dengan latensi untuk pengalaman pengguna; dia hanya peduli apakah tugas selesai. Jika metode memori baru memungkinkan tugas kompleks, sedikit penundaan bisa diterima.

Sementara itu, jika latensi bukan prioritas utama, kejaran terhadap kekuatan komputasi dan memori bandwidth tinggi (HBM) menjadi kurang relevan: jika latensi bukan batas keras, memori yang lebih lambat dan murah (seperti DRAM tradisional) justru lebih menarik. Jika seluruh sistem lebih banyak menunggu respons memori, chip tidak perlu proses manufaktur paling canggih. Ini akan memicu perubahan arsitektur mendalam, tapi tidak berarti arsitektur lama akan hilang:

Pelatihan (Training): akan tetap penting, arsitektur Nvidia saat ini (dengan kekuatan tinggi, memori bandwidth tinggi, jaringan cepat) akan terus mendominasi.

Answer inference: akan menjadi pasar penting tapi relatif kecil, dengan kecepatan ekstrem (seperti Cerebras atau Groq) sangat berguna.

Agentic inference: akan secara bertahap terlepas dari GPU. Kekurangan GPU dalam pre-fill yang boros memori dan dalam decode yang boros daya akan semakin nyata. Sebagai gantinya, sistem dengan kapasitas besar dan biaya rendah, dengan “cukup baik” kekuatan komputasi, akan mendominasi. Bahkan, kecepatan CPU dalam menjalankan alat mungkin lebih penting daripada GPU.

Selain itu, kategori ini berbeda dalam skala dan pentingnya. Secara spesifik, agentic inference akan menjadi pasar terbesar di masa depan karena tidak dibatasi oleh jumlah manusia atau waktu. Saat ini, agent hanya sekadar answer inference yang canggih; masa depan, agent sejati akan menjalankan pekerjaan berdasarkan instruksi dari komputer lain, dan pasar ini tidak akan bertambah besar seiring populasi, melainkan seiring peningkatan kekuatan komputasi.

Implikasi Agentic Inference terhadap Kekuasaan Komputasi

Hingga saat ini, menyebut “berkembang seiring kekuatan komputasi” biasanya mengandung harapan terhadap Nvidia. Tapi, keunggulan relatif Nvidia sejauh ini sangat bergantung pada latensi: chip Nvidia sangat cepat, tapi untuk menjaga kekuatan tetap aktif, diperlukan investasi besar dalam memperluas HBM dan jaringan. Jika latensi tidak lagi menjadi batas utama, solusi Nvidia tampaknya tidak lagi layak membayar premi.

Nvidia juga menyadari perubahan ini: mereka meluncurkan kerangka inferensi bernama Dynamo untuk membantu memecah bagian-bagian inferensi, dan memperkenalkan produk memori dan rack CPU terpisah untuk memperbesar cache KV dan mempercepat panggilan alat, agar GPU mahal tetap sibuk. Tapi, pada akhirnya, cloud provider besar mungkin akan mencari solusi alternatif di luar GPU untuk tugas inferensi agentic demi efisiensi biaya dan kemudahan.

Sementara itu, China meski kekurangan kekuatan komputasi top-tier, memiliki semua yang dibutuhkan untuk inferensi agentic: GPU cukup cepat, CPU cukup cepat, DRAM dan HDD tersedia. Tantangannya tentu di pelatihan; selain itu, answer inference mungkin lebih penting untuk keamanan nasional (terutama aplikasi militer).

Satu sudut pandang menarik adalah Space (Ruang): chip yang lebih lambat justru membuat “data center luar angkasa” lebih feasible. Pertama, jika memori bisa di-externalkan, chip bisa dibuat lebih sederhana dan lebih dingin. Kedua, proses lama dengan ukuran fisik lebih besar lebih tahan terhadap radiasi luar angkasa. Ketiga, proses lama cenderung lebih hemat energi dan menghasilkan panas lebih sedikit. Keempat, proses lama yang tidak canggih lebih andal, sangat penting untuk satelit yang tidak bisa diperbaiki.

CEO Nvidia Jensen Huang sering mengatakan “Hukum Moore sudah mati”; maksudnya, kecepatan masa depan akan bergantung pada inovasi sistem secara keseluruhan. Tapi, saat agent bisa beroperasi secara independen dari manusia, mungkin pelajaran paling mendalam adalah: Hukum Moore sudah tidak relevan lagi. Kita mendapatkan lebih banyak kekuatan komputasi dengan menyadari bahwa kekuatan yang kita miliki saat ini sebenarnya sudah “cukup baik”.

NVDA-4,36%
XAI-5,39%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan