Prediksi akhir semikonduktor AI: kekurangan setidaknya akan berlangsung selama lima tahun?

Judul asli: «Prediksi Akhir Semikonduktor AI 2026 (II)»
Penulis asli: fin, analis AI

Ketika evolusi struktural semikonduktor beralih ke jalur utama inferensi AI, memori dan penyimpanan menjadi hambatan terbesar. Keraguan terbesar pasar terhadap memori dan penyimpanan adalah:

Apakah HBM/DRAM/SSD akan lepas dari siklus tradisional?

Apakah jalur evolusi arsitektur GPU yang bergantung pada pertumbuhan eksponensial HBM akan berhenti? Kapan akan berhenti?

Seberapa besar dampak ekspansi produksi ChangXin? Akankah hal ini membawa pasar kembali ke dalam lumpur siklus?

Tulisan ini mencoba membangun kerangka kerja untuk menjawab pertanyaan-pertanyaan ini

Segala sesuatu bersifat siklus, dan siklus memori sangat kuat. Sumber terbesarnya adalah siklus ekspansi produksi yang terlalu lama, ketidakmampuan untuk memperluas produksi dengan cepat, dan ketidakcocokan dengan periode kekurangan permintaan.

Beberapa cara potensial untuk melepaskan diri dari siklus tradisional:

  1. Kustomisasi: Produk tidak dapat dipertukarkan, kapasitas produksi tidak dapat dipindahkan secara bebas, dan perlu menandatangani kontrak jangka panjang.

  2. Pertumbuhan permintaan eksponensial struktural: Kurva permintaan itu sendiri sangat curam, dan pasokan terus tertinggal.

  3. Peningkatan iterasi teknologi yang cepat: Setiap generasi produk dengan cepat menggantikan generasi sebelumnya.

Jika salah satu syarat terpenuhi, sebagian siklus tradisional dapat dilepaskan; jika dua hingga tiga syarat terpenuhi, sebagian besar siklus tradisional dapat dilepaskan.

Menurut kerangka ini, HBM memenuhi sekitar dua setengah dari tiga syarat tersebut.

  1. Kustomisasi, perlu menandatangani kontrak jangka panjang (lemah, dianggap setengah) ====================

HBM memang memiliki elemen kustomisasi dan codesign dengan Nvidia, tetapi tidak terlalu kuat. Bagian yang benar-benar dikustomisasi hanya pada kemasan dan base die, sedangkan selusin lapisan DRAM die di atasnya tetap sepenuhnya standar JEDEC.

Misalnya, ketika HBM3E Samsung gagal dalam kualifikasi Nvidia dan pangsa pasarnya turun dari sekitar 60% menjadi 20%, Samsung tidak membuang kapasitas produksi tersebut, melainkan mengalihkannya ke TPU Google dan AMD. Secara fisik, HBM3E yang dipasok ke Nvidia dan yang ke AMD adalah produk yang sama. Jadi kapasitas produksi masih dapat dialihkan secara bebas sebagian.

Setelah HBM4, kustomisasi lebih banyak, termasuk integrasi logika kustom dan/atau cache di base die. Cara yang lebih kompleks adalah menempatkan pengontrol memori HBM4E dan antarmuka die-to-die kustom langsung ke dalam base die logika.

SemiAnalysis menyebutkan bahwa OpenAI, Nvidia, dan AMD masing-masing sedang mengerjakan HBM kustom, tetapi ini merujuk pada kustomisasi base die, sementara lapisan DRAM di atasnya tetap standar.

Karena sifat kustomisasi sebagian ini, HBM terutama memerlukan kerja sama dalam kemasan, yang juga menyebabkan pelanggan harus menandatangani kontrak jangka panjang, tetapi kapasitas produksi memang dapat dialihkan, sehingga HBM hanya bisa dianggap setengah.

  1. Pertumbuhan permintaan eksponensial struktural (terpenuhi) =================

Alasan paling langsung adalah kebutuhan peningkatan perangkat keras token throughput dari pabrik token Nvidia, yang menyebabkan peningkatan bandwidth HBM yang sangat cepat dan pertumbuhan eksponensial ukuran HBM.

Syarat ini sebenarnya adalah kesimpulan dari tulisan sebelumnya "Prediksi Akhir Semikonduktor AI 2026 (I)":

token throughput = ukuran HBM × bandwidth HBM, setiap generasi berlipat ganda.

Ukuran HBM per GPU tumbuh sekitar 40% per tahun.

Kecuraman kurva permintaan ini sulit dikejar oleh pertumbuhan wafer DRAM sebesar 14% dan peningkatan kepadatan sebesar 9%.

Di bidang perangkat keras, karena persyaratan bandwidth yang sangat tinggi dan ukuran memori yang sangat besar dari KV cache pada tahap attn, HBM memiliki posisi yang unik. Bahkan jika harga HBM naik tiga hingga lima kali lipat, peningkatan token throughput marjinal yang diperoleh dari membelanjakan uang pada HBM masih jauh lebih menguntungkan daripada membelanjakannya di tempat lain.

Jalur memori lainnya, SRAM, HBF, CXL, PIM, saat ini tidak dapat bersaing secara langsung di jalur utama HBM (kv cache/attention), setidaknya dalam lima tahun ke depan atau bahkan lebih lama, kecil kemungkinan menemukan jalur alternatif.

  1. Peningkatan iterasi teknologi yang cepat (terpenuhi) ===============

Era DDR3 berlangsung 15 tahun, dan saat ini baru memasuki era DDR5. Sementara kecepatan peningkatan dan penggantian HBM pada dasarnya dua tahun per generasi, jauh lebih cepat daripada DDR tradisional, dan akhir-akhir ini bahkan ada tren percepatan. Ukuran HBM x BW HBM berlipat ganda setiap generasi, saat ini sepenuhnya sesuai dengan aturan ini.

Dengan peningkatan HBM setiap dua tahun, kecepatan GPU NV pada dasarnya naik secara eksponensial: 2TB/s -> 3.5TB/s -> 4.8TB/s -> 8TB/s -> 22TB/s. Selain itu, kecepatan HBM benar-benar linier dengan token throughput inferensi. Biaya penggunaan marjinal HBM generasi sebelumnya menjadi tidak ekonomis, semua orang termotivasi untuk menggunakan produk terbaru sebanyak mungkin. Meskipun lebih mahal, manfaat (token throughput) yang dihasilkan lebih besar.

Logika era pabrik token adalah: semakin banyak peningkatan teknologi (bandwidth HBM), semakin banyak keuntungan.

Perbedaan kecepatan ini menciptakan situasi yang mirip dengan CPU: produk lama cepat terdepresiasi, sehingga nilai penimbunan menjadi lebih rendah. Misalnya, nilai HBM3 terdepresiasi sangat cepat, dan saat ini produk utama tidak lagi menggunakannya.

Oleh karena itu, pilihan rasional produsen HBM adalah beralih dari bersaing dalam kapasitas produksi saat ini untuk merebut pasar (quantity competition) ke bersaing dalam stabilitas dan kecepatan HBM, serta bersaing dalam pangsa kualifikasi generasi berikutnya di platform Nvidia (quality competition). Dengan demikian, mereka menghindari dilema tahanan di fase penurunan siklus tradisional, di mana semua pihak enggan mengurangi produksi dan kehilangan pangsa pasar.

Perbandingan antara HBM dan DRAM tradisional: dua setengah dari tiga syarat terpenuhi. Bisakah HBM lepas dari siklus tradisional?

Sumber siklus memori, menurut narasi utama, adalah sifat komoditas DRAM (tanpa diferensiasi → perang harga → stok dapat ditimbun), sehingga memiliki siklus.

Namun, sifat komoditas itu sendiri tidak menghasilkan siklus; ia hanya merupakan penguat amplitudo.

Terutama di bidang DRAM, pernah terjadi dilema tahanan. Dalam siklus penurunan, Samsung pernah memperluas produksi untuk merebut pangsa pasar; siapa yang mengurangi produksi lebih dulu akan rugi, sehingga tidak ada yang berani mengurangi produksi dengan mudah, dan akhirnya semua menderita kerugian besar.

Sebenarnya, sumber struktural utama siklus adalah periode pasokan yang terlalu lama, yang mudah tidak sinkron dengan siklus permintaan. Membangun pabrik fab membutuhkan waktu 3 tahun dan investasi puluhan miliar dolar. Setelah keputusan dibuat, tidak dapat diubah. Sementara pertumbuhan permintaan tidak stabil. Setiap kali paradigma baru muncul, seperti layanan cloud, ponsel internet seluler, permintaan online selama pandemi, akan terjadi pertumbuhan eksplosif. Namun setelah dua tahun, pertumbuhan melambat, pasokan melebihi permintaan, harga turun drastis, dan berubah menjadi siklus kerugian.

Segala sesuatu bersifat siklus, dan HBM juga tidak dapat menghindari hal ini. Namun, selama permintaan token masih tumbuh secara eksponensial, pertumbuhan eksponensial struktural akan mengurangi siklusitas. Karena prediktabilitas permintaan lebih baik, dan begitu harga turun, pelanggan akan meningkatkan ukuran HBM (sehingga meningkatkan token throughput). Ditambah dengan persyaratan kustomisasi HBM yang mengarah pada kontrak jangka panjang, ini berubah dari siklusitas menjadi siklus pertumbuhan, dan siklus ini akan sangat panjang.

· Siklus: Untung banyak di siklus naik, rugi banyak di siklus turun. · Siklus pertumbuhan: Untung banyak di siklus naik, untung sedikit di siklus turun.

Selain itu, berdasarkan tiga syarat untuk melepaskan diri dari siklus tradisional, HBM/DRAM juga memiliki keunggulan penting lainnya:

  1. Karena penskalaan kepadatan DRAM semakin lambat, dan peningkatan generasi HBM menyebabkan peningkatan lipatan tumpukan DRAM, kesulitan ekspansi pasokan terus meningkat. ====================================================================

Sekitar tahun 2000, kepadatan bit DRAM per wafer tumbuh sekitar 45% per tahun. Artinya, bahkan jika jumlah wafer tidak diperluas, volume bit DRAM dari pasokan masih dapat tumbuh 45% per tahun.

Sepuluh tahun yang lalu, pertumbuhan kepadatan bit DRAM per tahun turun menjadi 20%. Sekarang, pertumbuhan kepadatan bit DRAM per tahun turun menjadi 9%. Dulu, untuk memperluas produksi DRAM, bahkan tidak perlu membangun pabrik baru untuk mendapatkan kenaikan volume bit tahunan sebesar 20-30%. Sekarang, untuk memperluas produksi DRAM, lebih bergantung pada peningkatan jumlah wafer, yaitu membangun pabrik baru dan clean room.

Kesulitan lain dalam ekspansi cepat HBM adalah HBM3e membutuhkan sekitar 3 kali wafer DRAM, dan HBM4, karena peningkatan kepadatan tumpukan, membutuhkan sekitar 4 kali wafer DRAM. Ini berarti bit HBM relatif terhadap bit DRAM menjadi semakin sulit diproduksi, jumlah bit HBM yang dihasilkan per unit wafer DRAM semakin berkurang, yang berarti deflasi.

Akankah HBM suatu hari nanti kembali dari siklus pertumbuhan ke siklus tradisional? Faktor terpenting adalah pertumbuhan eksponensial struktural. Maka,

Di era inferensi AI, akankah jalur evolusi arsitektur GPU yang bergantung pada pertumbuhan eksponensial HBM berhenti? Kapan akan berhenti?

token throughput = ukuran HBM × bandwidth HBM. Penyebab pertumbuhan ukuran HBM dalam prinsip pertama pertumbuhan eksponensial HBM ini adalah pertumbuhan KV cache. Karakteristik KVCache dan Attention juga sangat cocok dengan HBM. Bahkan membuat HBM unggul dari jalur teknologi lain, memaksimalkan pemanfaatan KVCache dan tahap Attention.

Dengan kata lain, jika KV cache tidak ada lagi secara arsitektur, maka logika pertumbuhan eksponensial ukuran HBM juga akan terpengaruh.

Jadi inti dari pertanyaan ini sebenarnya adalah: akankah mekanisme attention yang diwakili oleh Transformer dan mekanisme KV cache yang diturunkan darinya menghilang? Akankah digantikan setelah surut?

Dari hukum sejarah: Setiap revolusi arsitektur model AI, operasi primitif yang benar-benar dipertahankan adalah yang memiliki universalitas matematis.

Contoh: FFN (jaringan umpan maju, yaitu banyak lapisan MLP dalam model) adalah produk era deep learning tahun 2012, tetapi ia bertahan hingga hari ini dalam model bahasa besar dan masih menempati sejumlah besar parameter model. Mengapa ia bisa bertahan? Karena ini juga merupakan teorema aproksimasi universal (Universal Approximation Theorem): MLP yang cukup lebar dapat mendekati fungsi kontinu apa pun.

Attention kemungkinan besar juga akan menjadi primitif yang dipertahankan. Karena ia memecahkan masalah yang sama mendasarnya: routing dinamis (dynamic routing) antara dua posisi arbitrer dalam urutan, memungkinkan dua posisi arbitrer dalam suatu urutan untuk menjalin hubungan sesuai kebutuhan. Setelah kemampuan ini terbukti efektif, sulit untuk ditinggalkan.

Jadi, meskipun arsitektur masa depan berevolusi dari Transformer murni ke arsitektur hibrida, atau ke model dunia, lapisan attention akan tetap ada. KV cache (atau ekuivalennya setelah kompresi laten) masih diperlukan. HBM masih akan menjadi salah satu inti inferensi. Jalur evolusi arsitektur GPU KV cache yang bergantung pada pertumbuhan eksponensial HBM ini tidak akan berhenti.

Lalu bagaimana dengan DRAM? Apakah ada kemungkinan untuk melepaskan diri dari siklus tradisional di masa depan?

Ada konsensus tertentu di pasar bahwa HBM dapat melepaskan siklus, tetapi untuk DRAM, saat ini pada dasarnya tidak ada konsensus.

Kembali ke kerangka kerja sebelumnya. Di antara tiga syarat untuk melepaskan diri dari siklus tradisional, DRAM tidak memiliki kustomisasi, jadi hanya dapat melihat kecepatan iterasi teknologi. Yang paling penting adalah apakah ada pertumbuhan eksponensial struktural. Jawabannya adalah ada.

Dalam konsep pabrik token AI, pertumbuhan eksponensial struktural memang terutama terjadi pada HBM. Namun, setelah akhir tahun 2025, terjadi perubahan: dengan mulai dilepaskannya potensi CPU agen, permintaan DRAM yang menyertai CPU menjadi sumber pertumbuhan eksponensial struktural baru untuk DRAM.

Logika pertumbuhan ini terdiri dari dua lapisan: Lapisan pertama adalah pertumbuhan cepat TAM server CPU, lapisan kedua adalah peningkatan cepat penggunaan DRAM per inti CPU server karena aliran agen.

Empat logika pertumbuhan cepat TAM server CPU telah ditulis secara rinci dalam artikel khusus CPU pada bulan April. Secara singkat:

  1. Rasio CPU dan GPU dalam kluster akselerator AI berubah dari tradisional 1:4 menjadi 1:2, dan bahkan mungkin mendekati 1:1.

  2. Dalam aliran agen, latensi yang ditangani oleh CPU sangat tinggi, 50-90% menjadi hambatan penting, sehingga perlu diperluas secara sinkron.

  3. AI coding membuat efisiensi SDE meningkat secara dramatis, jumlah kode meningkat secara eksponensial, panggilan API perangkat lunak tumbuh secara eksponensial, yang secara langsung mengubah jam CPU ini menjadi peningkatan eksponensial.

  4. Sandbox untuk memastikan keamanan dan isolasi data, seperti Analytical Agent yang perlu menduplikasi database besar dan konteks pengguna untuk setiap tugas, menyebabkan pemborosan besar pada memori (DRAM) dan inti CPU. Masalah pemborosan ini tidak dapat diselesaikan dalam lima tahun atau lebih. Selain itu, jam CPU secara teknis sulit untuk dideflasi melalui metode optimasi.

Inilah sebabnya mengapa dalam laporan keuangan dua kuartal lalu, AMD mengatakan CPU TAM akan mencapai 60 miliar dolar pada tahun 2030. Dua bulan lalu, AMD/ARM menggandakan prediksi CPU TAM 2030 menjadi 120 miliar dolar. Sebulan lalu, Nvidia kembali menggandakan prediksi CPU TAM 2030 menjadi 200 miliar dolar.

Dan minggu lalu, Bernstein kembali meningkatkan panduan CPU TAM 2030 menjadi 223 miliar dolar. Menurut saya, tidak ada keraguan bahwa CPU TAM 2031 akan direvisi naik menjadi 400 miliar dolar di masa depan. Satu-satunya keraguan adalah kapan raksasa-raksasa ini akan mengumumkan revisi naik panduan ini.

Lapisan kedua, mengapa penggunaan DRAM per inti CPU server meningkat pesat di era agen?

  1. Agen adalah proses jangka panjang dengan status, bukan request-response tanpa status.

Web/SaaS tradisional bersifat stateless: permintaan masuk, alokasi memori, selesai diproses, memori segera dikembalikan. Sementara tugas agen dapat berjalan dari satu menit hingga satu jam. Selama waktu ini, riwayat pesan, prompt sistem, memori kerja, memori jangka panjang, buffer hasil alat semuanya menetap di DRAM.

Sama seperti jam CPU, jejak memori setiap tugas, karena persyaratan stateful dan isolasi sandbox (setiap tugas menduplikasi database dan konteks), secara teknis sulit untuk dikompresi.

  1. Jendela konteks memanjang secara eksponensial, set kerja setiap sesi membengkak, konkurensi × jejak memori per sesi, pengganda multiplikasi.

Jendela konteks berkembang dari 32K → 256K → 1M, panjang urutan reasoning / test-time compute meledak, dan akan terus bertambah di masa depan. Pesan yang menetap per sesi aktif tumbuh secara linier dengan panjang konteks.

Sekarang kalikan dua lapisan ini.

Lapisan pertama, TAM server CPU, dalam 2030~2031 sekitar 5-7 kali lipat (60B → 120B → 200B → 223B, saya pikir akan mencapai 400B).

Lapisan kedua, rasio DRAM per CPU, sekitar 3-4 kali lipat (4~8GB → 16~32 GB/core), tetapi pertumbuhan ini mungkin sebagian besar merupakan dividen satu kali.

Mengalikan dua variabel independen, permintaan DRAM sisi server adalah pertumbuhan yang luar biasa.

Pada tahun 2030, bahkan dengan asumsi konservatif 300B CPU TAM, satu inti CPU seharga $50, di era agen paling konservatif 16GB/core, ini menghasilkan tambahan setidaknya 96EB, sementara total produksi DRAM tahun ini hanya 47EB, tahun depan mungkin 60EB. Ini adalah peningkatan yang sangat mengejutkan.

Meskipun pertumbuhan eksponensial DRAM yang disebabkan oleh CPU agen ini sebagian besar merupakan dividen satu kali di lapisan kedua, namun akan berlangsung sangat lama, karena kesenjangan kekurangan ini sangat besar.

Kembali ke kerangka kerja di awal artikel. Di antara tiga syarat untuk melepaskan diri dari siklus tradisional, syarat pertama, kustomisasi DRAM, pada dasarnya dapat diabaikan.

Sementara syarat kedua: sumber permintaan struktural yang eksponensial dan sulit dibalik adalah valid. DRAM komoditas sekarang juga memiliki kualifikasi untuk melepaskan sebagian siklus tradisional. Tidak separah HBM (dua setengah), tetapi sudah merupakan perubahan substansial.

Syarat ketiga, kecepatan iterasi teknologi, ritme DRAM juga berbeda dari sebelumnya.

Karena sebelumnya kecepatan iterasi teknologi DRAM sangat bergantung pada elektronik konsumen. Kemajuan DDR tidak terlalu berguna untuk kinerja. Namun di masa depan yang dapat diprediksi, DRAM tradisional berbasis karbon akan jauh lebih kecil dari DRAM berbasis silikon (server CPU).

Dulu, peningkatan kecepatan DRAM memberikan utilitas marjinal yang sangat rendah. Namun sekarang, karena meningkatnya permintaan memori dari server CPU dan meningkatnya persyaratan kecepatan DDR dari AI di sisi perangkat, misalnya Apple untuk menjalankan model besar lokal, kecepatan LPDDR menjadi semakin cepat.

Utilitas marjinal peningkatan kecepatan meningkat secara signifikan. Oleh karena itu, kebutuhan iterasi kecepatan DDR6 dan LPDDR6 jauh lebih besar daripada sebelumnya. Ini juga dapat dilihat dari grafik, waktu iterasi LPDDR6/DDR6 diperpendek, dan kemiringan kecepatan mulai naik kembali.

Dulu, ketika generasi baru DDR/LPDDR dirilis, reaksi orang dingin; mereka akan menggunakannya hanya setelah harga turun.

Sekarang, ketika LPDDR6 dirilis, semua produsen berlomba-lomba untuk menggunakan secepat mungkin, karena peningkatan kecepatan memberikan peningkatan kinerja yang nyata.

Selain itu, pasokan DDR juga akan dikenakan pajak tambahan oleh HBM. Kecepatan ekspansi tahunan HBM terlalu cepat, sehingga setiap tahun sejumlah wafer yang awalnya dapat digunakan untuk DDR komoditas ditarik untuk HBM. Rasio konversi HBM sangat rendah: HBM3E membutuhkan sekitar 3 kali kapasitas wafer DDR untuk menghasilkan bit yang setara, HBM4 4 kali. Jadi, setiap tahun sekitar 3% hingga 5% pertumbuhan bit DDR dimakan langsung oleh pajak bit HBM ini.

Jadi, meskipun volume bit DRAM di masa depan dapat tumbuh sekitar 24% per tahun (14% dari pertumbuhan wafer, 9% dari peningkatan kepadatan DRAM per wafer), setelah memperhitungkan pajak bit HBM, DDR komoditas tradisional non-HBM hanya memiliki pertumbuhan bit tahunan sekitar 20% (sekitar 10% pertumbuhan wafer × sekitar 9% peningkatan kepadatan node).

Seberapa besar dampak ekspansi produksi ChangXin Tiongkok? Jika ekspansi produksi dilakukan secara agresif, akankah hal ini membawa pasar kembali ke dalam lumpur siklus?

Kecepatan ekspansi produksi ChangXin dalam beberapa tahun terakhir masih sangat cepat. Pada tahun 2025, masih 200.000 wafer per bulan. Pada tahun 2026, kontribusi dari pabrik wafer Beijing dan jalur produksi baru dapat mencapai 320.000 hingga 350.000.

Pabrik Shanghai yang sedang dibangun, fase satu dan dua. Fase satu diharapkan dapat menambah kapasitas 100.000 wafer per bulan pada tahun 2027, fase dua diharapkan dapat menambah kapasitas 100.000 wafer per bulan pada tahun 2028. Artinya, pada tahun 2027, 420.000 wafer per bulan, pada tahun 2028 dapat mencapai 500.000 wafer per bulan.

Namun perlu dicatat bahwa kepadatan bit DRAM ChangXin hanya sekitar setengah dari tiga raksasa. Jadi, volume bit DRAM yang dapat dihasilkan dari 500.000 wafer per bulan ChangXin hanya setengah dari yang lain. Saat menghitung wafer per bulan, hitung setara setengahnya.

Setelah menerapkan diskon ini, dampak ChangXin terhadap seluruh industri DRAM masih kecil. Dari akhir 2025 hingga akhir 2028, dampak ChangXin terhadap CAGR kapasitas bit DRAM hanya sekitar 1,5%. CAGR kapasitas DRAM seluruh industri naik dari sekitar 12,7% menjadi 14,2%.

· Kapasitas bulanan DRAM (kwspm) 2025E → CAGR 2028E · Samsung 685K → 920K 10,3% · SK Hynix 519K → 725K 11,8% · Micron 340K → 560K 18,1% · Non-Tiongkok lainnya 150K → 218K 13,3% · Tiongkok (kepadatan setengah) 117K → 274K 32,8% · Total termasuk Tiongkok 1811K → 2697K 14,2% · Total tanpa Tiongkok 1694K → 2423K 12,7%

Bahkan jika ChangXin dapat mempertahankan kecepatan produksi di masa depan, dampak tahunan terhadap CAGR volume bit DRAM seluruh industri pada tahun 2030 mungkin kurang dari 3%, dari CAGR 20% menjadi CAGR 23%, hanya itu.

Selain itu, ChangXin dibatasi oleh mesin litografi, sementara DDR6 membutuhkan kecepatan lebih tinggi (mulai 14400 MT/s) dan kepadatan lebih tinggi. Tiga raksasa kemungkinan akan menggunakan node 1c atau lebih maju (~12nm ke bawah) untuk DDR6, dan sudah sepenuhnya menggunakan EUV. ChangXin mungkin akan dibatasi kecepatannya pada DDR6, dan kepadatannya hanya setengah.

Bahkan dengan siklus pertumbuhan, mengapa siklus super DRAM ini akan berlangsung sangat lama, setidaknya lima tahun ke depan tidak akan berakhir?

Alasan pertama adalah pertumbuhan besar permintaan server CPU yang dibahas sebelumnya, yang menyebabkan pertumbuhan eksponensial struktural permintaan DRAM. Dengan menggabungkan CAGR volume bit pasokan DRAM yang stabil sekitar 20%, dapat dilihat dengan jelas mengapa kesenjangan DRAM semakin membesar dalam beberapa tahun ke depan:

Pasokan DRAM tradisional non-HBM tumbuh sekitar 20% per tahun, sementara sisi permintaan, berdasarkan CPU TAM 60B tahun 2026, rata-rata konsumsi DRAM per CPU 8GB/core, $30~35 per core, permintaan adalah 16EB.

Pada tahun 2030, berdasarkan CPU TAM 400B, rata-rata konsumsi DRAM per CPU 16GB/core, $80 per core (kenaikan harga CPU lebih dari dua kali lipat), permintaan adalah 80EB. Pertumbuhan CAGR bagian DRAM ini sekitar 50%, jauh melebihi perkiraan saat ini.

Berbeda dengan HBM yang terkait langsung dengan token throughput dan efisiensi penghasilan GPU, dampak DRAM yang tidak mencukupi pada aliran agen terutama pada kecepatan. Misalnya, dibandingkan dengan 8GB/core dan 16GB/core, beberapa beban kerja mungkin melambat 30%. Beberapa tugas bernilai rendah masih bisa ditoleransi jika harus menunggu. Motivasi pertumbuhan eksponensial struktural sangat kuat, tetapi permintaan tidak sekaku GPU.

Semianalysis mengatakan bahwa kesenjangan DRAM tahun ini adalah satu digit persen, tahun depan lebih dari 10%. Dari perspektif struktural DRAM yang disebabkan oleh lonjakan jumlah CPU agen, kesenjangan ini akan terus membesar setiap tahun, dan tidak mungkin berkurang sebelum tahun 2030.

Alasan lain yang membuat DRAM dapat bertahan kuat dalam waktu lama adalah bahwa setelah harga DRAM naik, bagian permintaan yang dihilangkan oleh kenaikan harga tidak benar-benar hilang, hanya tertunda. Reservoir permintaan terlalu besar.

Yang disebut reservoir adalah permintaan potensial yang akan segera dilepaskan begitu harga memori turun. Keberadaan mereka berarti bahwa bahkan jika pasokan sementara seimbang, harga sulit runtuh, karena selalu ada permintaan baru dari reservoir untuk mengambil alih:

Daya komputasi/kecepatan memori adalah reservoir:

Ada banyak permintaan yang awalnya membutuhkan memori tambahan untuk mengoptimalkan kecepatan dan daya komputasi, tetapi tertekan saat memori terlalu mahal. Begitu harga memori turun, mereka akan dilepaskan.

Misalnya, akselerator prefill CPX Nvidia, yang awalnya dirancang untuk menggunakan GDDR7 berbiaya rendah tambahan sebagai akselerator prefill khusus. Namun, LPDDR/GDDR terlalu mahal, bahkan lebih mahal dari HBM sebelum kenaikan harga, sehingga ROI skema ini tidak ekonomis. Tetapi ketika harga memori biasa turun, skema optimasi seperti CPX akan kembali.

Tugas bernilai rendah adalah reservoir: Ketika kenaikan harga memori menyebabkan harga token tetap tinggi, tugas bernilai tinggi diprioritaskan, tugas bernilai rendah ditunda; begitu harga memori turun, permintaan yang tertunda ini kembali.

AI sisi perangkat adalah reservoir: Konfigurasi memori PC AI dapat meningkat dari 24GB hingga 128GB. Apple telah dengan jelas mensyaratkan bahwa versi penuh AI sisi perangkat terbaru perlu ditingkatkan dari 8GB menjadi 12GB memori.

Elektronik konsumen biasa, PC agen, ponsel kelas bawah, semua permintaan yang berkurang karena kenaikan harga memori adalah reservoir.

Reservoir yang begitu banyak ditumpuk bersama membentuk bantalan permintaan yang sangat tebal. Inilah sebabnya mengapa pertumbuhan struktural DDR kali ini akan memiliki daya tahan yang lebih kuat dari yang diperkirakan pasar.

Alasan lain mengapa harga DRAM sulit turun secara signifikan adalah bahwa kapasitas produksi HBM dan DRAM dapat saling dikonversi, sehingga seluruh kompleks DRAM dinilai ulang bersama.

Dalam siklus naik, margin keuntungan DRAM jauh melebihi HBM. Kenaikan harga HBM bahkan didorong oleh DRAM. Harga HBM4 yang baru ditandatangani tahun ini adalah harga DRAM saat ini x 4, yaitu harga HBM4 sesuai dengan kelipatan tumpukan normal.

Begitu harga DRAM turun dan margin turun, karena transparansi kontrak jangka panjang HBM, margin keuntungan dijamin. HBM secara tidak langsung akan menarik lebih banyak kapasitas DRAM dari DRAM. Penurunan harga HBM juga akan memotivasi produsen GPU untuk meningkatkan ukuran HBM sebanyak mungkin, yang secara tidak langsung menjamin lantai harga DRAM.

Permintaan pertumbuhan eksponensial struktural DRAM sudah ada. Penskalaan kepadatan melambat, kesulitan ekspansi meningkat. Rencana ekspansi produsen sangat hati-hati. Dampak ChangXin dalam beberapa tahun ke depan juga terbatas. Ditambah reservoir permintaan yang sangat besar. Keempat alasan ini menyebabkan bahwa dalam setidaknya lima tahun ke depan atau bahkan lebih lama, DRAM akan sulit memasuki titik terendah siklus.

Apakah NAND SSD memiliki harapan untuk melepaskan diri dari siklus tradisional?

Kekuatan pertumbuhan struktural NAND tidak sekuat DDR. Penyebab utama kekurangan tahun ini adalah disiplin produksi beberapa pemain utama yang terjaga dengan baik; tidak ada ekspansi produksi skala besar. Peningkatan kapasitas tahunan terutama berasal dari perbaikan teknologi: peningkatan jumlah lapisan tumpukan NAND.

Pertumbuhan struktural pertama berasal dari AI, terutama dari offloading KV cache, membuang KV cache hangat/dingin yang meluap dari HBM ke NAND SSD.

Namun yang menakjubkan adalah bahwa pertumbuhan offloading KV cache ini bahkan belum terjadi secara besar-besaran, tetapi SSD sudah lebih kekurangan dari DRAM, kenaikan harga juga lebih besar dari DRAM. Ketika Rubin CMX mulai diproduksi massal tahun depan, ditambah dengan penerapan offloading KV cache secara besar-besaran, kekurangan SSD juga akan tumbuh karena pertumbuhan struktural ini.

Kedua, pertumbuhan struktural lain dari video AI yang disebutkan dalam ringkasan tahunan tahun lalu sebagai sesuatu yang diharapkan di masa depan, tahun ini sudah mulai menonjol.

Volume Seedance tumbuh dengan kecepatan sepuluh hingga empat puluh kali lipat per tahun. Saat ini masih terhambat oleh kurangnya daya komputasi kartu, permintaan ditekan oleh daya komputasi dan belum sepenuhnya dilepaskan. Tetapi ketika fase kekurangan kartu berlalu, pertumbuhan permintaan struktural video AI untuk penyimpanan NAND akan berlangsung cukup lama.

Pertumbuhan struktural ketiga juga berasal dari peningkatan eksponensial penggunaan Sandbox akibat aliran agen. Sandbox, untuk memastikan keamanan dan isolasi data, seperti Analytical Agent yang perlu menduplikasi database besar dan konteks pengguna untuk setiap tugas, menyebabkan pemborosan besar pada memori (DRAM) dan inti CPU, juga akan membawa sejumlah besar pemborosan (permintaan) SSD.

Keempat, pertumbuhan struktural yang mungkin berperan setelah tahun 2030, berasal dari jalur HBF yang membutuhkan SSD. Dalam analisis banyak bank investasi, ini diharapkan. Namun jalur teknologi ini masih agak jauh; peran utamanya hanya sebagai penyimpanan bobot model besar, menulis bobot sekali dan kemudian hanya baca, dan harus dikemas bersama dengan GPU/HBM (48TBps/96TBps), jika tidak, kecepatan PCIE7/8 terlalu lambat untuk digunakan. Hanya masa depan yang diharapkan. Prediksi Akhir Semikonduktor AI 2026 (III) berikutnya akan memiliki analisis yang lebih rinci.

Singkatnya, pertumbuhan struktural NAND SSD tidak sekuat HBM, tetapi keunggulannya adalah murah. Harga hingga tahun 2027 hanya $0,8/GB, seperempat puluh dari DRAM pada periode yang sama. Jadi ini juga merupakan properti serbaguna dalam hierarki cache bertingkat. Sumber pertumbuhan struktural terlalu luas.

Artinya, tidak ada situasi di mana DRAM/HBM naik sendirian sementara SSD tidak naik. Karena jika situasi seperti itu terjadi, semua orang akan mencoba menggunakan SSD untuk membawa sebagian fungsi DRAM/HBM, mencapai efek serupa dengan biaya lebih rendah. HBM, DRAM, NAND bukanlah tiga cerita independen, tetapi pertumbuhan struktural dari hierarki memori AI yang sama di lapisan suhu yang berbeda.

Permintaan pertumbuhan eksponensial struktural sudah ada. Apakah NAND SSD telah melepaskan diri dari siklus? Maka perlu melihat disiplin produksi pabrikan NAND SSD. Satu-satunya yang mungkin tidak mematuhi disiplin produksi adalah ChangCun. Bagaimanapun, ini adalah dilema tahanan. Begitu satu pihak memperluas produksi secara agresif, seluruh industri NAND akan menghadapi kesulitan ekspansi yang lebih sederhana daripada DRAM.

Namun setidaknya, siklus super NAND kali ini juga sama. Permintaan dari beberapa pertumbuhan struktural eksponensial menunda fase penurunan hingga tahun 2030, tidak masalah.

Tautan asli

Klik untuk mengetahui posisi yang dibuka oleh BlockBeats

Selamat bergabung dengan komunitas resmi BlockBeats:

Grup berlangganan Telegram: https://t.me/theblockbeats

Grup diskusi Telegram: https://t.me/BlockBeats_App

Akun resmi Twitter: https://twitter.com/BlockBeatsAsia

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar