Dunia sudah lama menderita karena DRAM.

Saat ini, pusat data menghadapi krisis baru — bukan karena daya komputasi yang kurang, melainkan karena harga memori yang terlalu mahal.

Dalam beberapa tahun terakhir, seiring dengan perluasan bisnis AI seperti inferensi model besar, basis data dalam memori, dan komputasi berkinerja tinggi yang berkembang pesat, pusat data didorong menuju titik kritis sumber daya memori. DRAM, yang dulunya merupakan komponen standar server, kini telah menjadi sumber daya infrastruktur yang paling mahal dan langka. Lonjakan harga dan kekakuan pasokan menjadi faktor kunci yang membatasi kecepatan penyebaran daya komputasi AI.

Menurut data pelacakan Counterpoint Research, harga memori DIMM 64 GB telah naik 3,5 kali lipat antara kuartal ketiga 2025 dan kuartal pertama 2026, dan tren kenaikan belum mencapai puncaknya — diperkirakan pada kuartal ketiga 2026, kenaikan kumulatif akan mencapai 5 kali lipat.

Data dari TrendForce lebih jelas: pada kuartal pertama 2026, harga kontrak DRAM naik 93% hingga 98% secara kuartalan, mendorong pendapatan industri DRAM global naik 81% secara kuartalan menjadi $97 miliar. Memasuki kuartal kedua, kenaikan belum berhenti, harga kontrak diperkirakan akan naik lagi 58% hingga 63%.

Sinyal dari pasar spot lebih jelas: harga satuan spot DDR5 RDIMM tingkat server saat ini berkisar antara $27 hingga $37 per GB. Hanya untuk membangun kumpulan memori 12 TB, biaya pembelian perangkat keras DRAM murni mendekati $500.000.

Krisis DRAM, meletus secara menyeluruh

Akar dari gelombang kenaikan harga ini adalah penggerusan terus-menerus kapasitas produksi DRAM oleh HBM.

Menurut data terkait, seiring dengan ledakan permintaan akan memori bandwidth tinggi untuk pelatihan dan inferensi AI, pangsa HBM dalam kapasitas produksi wafer DRAM telah naik dari 2% pada tahun 2020 menjadi perkiraan 25% pada tahun 2026. Tiga produsen utama, Samsung, SK Hynix, dan Micron, secara aktif mengalihkan kapasitas produksi berkualitas tinggi ke HBM dengan margin tinggi. Proporsi produksi wafer HBM terhadap total produksi wafer DRAM dari 2025 hingga 2027 masing-masing adalah 18%, 22%, dan sekitar 30%. Satu wafer HBM membutuhkan sekitar tiga kali kapasitas produksi DDR5. Ketiga produsen utama secara aktif mengurangi pesanan margin rendah untuk ponsel dan PC, mengalihkan semua kapasitas ke AI. Ditambah lagi, penyedia cloud skala besar mengunci produksi wafer di masa depan dengan kontrak jangka panjang multi-tahun, yang semakin menekan pasokan DRAM standar untuk server.

Sedangkan kekakuan sisi pasokan menentukan bahwa kekurangan sulit diatasi dalam jangka pendek.

Proses DRAM canggih sangat bergantung pada mesin litografi EUV, dengan harga satu unit mencapai sekitar $200 juta. Investasi untuk pabrik wafer modern bisa mencapai puluhan miliar dolar. Bahkan jika semuanya berjalan lancar, siklus konstruksi memakan waktu bertahun-tahun. Kecepatan ekspansi kapasitas produksi jauh tertinggal dari pertumbuhan permintaan AI.

Jefferies memperkirakan, jika tidak termasuk pengaruh produsen lokal, pertumbuhan pasokan bit penyimpanan global pada tahun 2026 hanya 7% hingga 8%. DRAM dan NAND secara total mungkin mengalami kekurangan pasokan sekitar 150.000 hingga 200.000 wafer per bulan. Micron Technology dalam laporan keuangan kuartal ketiga tahun fiskal 2026 menyatakan, meskipun pasokan industri mungkin membaik secara bertahap pada tahun 2028, masih sulit untuk menilai kapan pasokan penyimpanan dapat mengejar pertumbuhan permintaan yang terus berlanjut.

Selain itu, tekanan telah menyebar dari pusat data ke konsumen.

CEO Xbox, Asha Sharma, secara terbuka menyatakan bahwa dalam dua tahun terakhir, biaya memori naik sekitar lima kali lipat, yang secara langsung menyebabkan perusahaan tidak dapat memproduksi cukup banyak konsol game untuk memenuhi permintaan pasar. Apple juga mengumumkan kenaikan harga untuk iPhone, Mac, iPad, dan produk lainnya.

Analis Morgan Stanley, Shawn Kim, bahkan secara terang-terangan mengatakan bahwa lonjakan harga memori dan kelangkaan pasokan berubah menjadi risiko menyeluruh bagi ekonomi digital, "dari hambatan infrastruktur AI, meluas ke margin keuntungan perangkat keras, keterjangkauan perangkat, biaya cloud, inflasi, dan bahkan kebijakan."

Dalam daftar material server, perubahan proporsi DRAM lebih jelas. Pada tahun 2023, DRAM menyumbang sekitar 50% dari biaya total server; pada pertengahan 2026, proporsi ini telah naik menjadi 60% hingga 90%, rata-rata sekitar 75%. Harga CPU tidak turun, tetapi dengan latar belakang kenaikan harga memori yang meroket, kenaikan harga CPU tampak tidak berarti.

Lebih ironisnya lagi, memori yang dibeli dengan harga mahal sebenarnya tidak digunakan secara efisien — data pengujian dari perusahaan skala besar seperti Meta menunjukkan bahwa memori pusat data umumnya hanya sekitar setengah kapasitas yang menampung "data panas" yang aktif, sementara sejumlah besar data dingin menempati sumber daya DRAM mahal untuk waktu yang lama.

Menghadapi mahalnya dan langkanya DRAM, para pemain industri mulai mencari jalan alternatif — tidak lagi sekadar menumpuk perangkat keras, tetapi menggunakan cara teknis untuk mengurangi ketergantungan pada DRAM.

AMD: Penjadwalan prediktif AI, membuat memori kilat "tersembunyi" menjadi memori

AMD memilih jalur perangkat lunak paling ringan.

Pada Juni 2026, AMD mengumumkan akuisisi MEXT, perusahaan pengoptimal memori. Tujuan utamanya adalah memperkenalkan teknologi memori berlapis yang digerakkan AI, memindahkan data dingin dari DRAM mahal ke NAND flash berbiaya rendah, sehingga memperluas kapasitas memori efektif dengan biaya rendah.

Diketahui, MEXT didirikan pada tahun 2023. Tim pendirinya sangat berpengalaman — salah satu pendiri dan CEO Gary Smerdon pernah menjadi Chief Strategy and Product Officer Fusion-io, pelopor komersialisasi besar-besaran penyimpanan flash. Lebih dari sepuluh tahun lalu, Apple dan Meta Platforms adalah pelanggan utamanya.

MEXT meluncurkan teknologi memory tiering berbasis AI untuk mengatasi hambatan efisiensi memori. Teknologi ini dapat memindahkan data yang jarang diakses dari DRAM mahal ke NAND flash yang biaya per unit kapasitasnya jauh lebih rendah, tanpa mempengaruhi operasi aplikasi.

Produk inti MEXT adalah Predictive Memory Engine, sebuah solusi memory tiering yang sepenuhnya berbasis perangkat lunak: terus memantau pola akses aplikasi pada tingkat halaman memori, secara otomatis memigrasikan data dingin yang jarang diakses ke NAND flash — biaya per bit flash hanya sekitar 1/55 dari DRAM; pada saat yang sama, melalui model AI yang mempelajari pola akses beban kerja, memprediksi halaman data yang akan dipanggil, dan secara proaktif mengambilnya kembali ke DRAM sebelum aplikasi meminta, sehingga perangkat lunak dapat membaca data seolah-olah langsung mengakses memori utama, memastikan kinerja tidak terpengaruh.

Sumber gambar: Nextplat

Seluruh mekanisme sepenuhnya transparan bagi sistem operasi dan aplikasi di atasnya, tidak perlu mengubah kode bisnis apa pun, juga tidak memerlukan perangkat keras khusus baru, dan dapat disebarkan dalam hitungan menit.

Data resmi menunjukkan bahwa solusi ini dapat meningkatkan kapasitas memori efektif sistem 2 hingga 4 kali lipat, dan mengurangi biaya infrastruktur secara keseluruhan sekitar 50%. Dalam skenario tipikal seperti basis data grafik Neo4j, simulasi EDA, dan rendering film, konfigurasi dengan rasio DRAM terhadap flash 1:1 dapat mencapai throughput sekitar 95% dari konfigurasi DRAM murni, namun biaya jauh lebih rendah.

Sebelumnya, MEXT melakukan pengujian perbandingan pada server Dell dan instance cloud AWS:

Gambar perbandingan server Dell/AWS dengan dan tanpa MEXT extended memory (Sumber gambar: Nextplat)

Saat menggunakan MEXT memory extension, kinerja dan rasio harga-kinerja basis data grafik Neo4j pada rasio memori dan flash 1:1 dan 1:3:

Sumber gambar: Nextplat

Meskipun ide MEXT tidak revolusioner — memory tiering, memindahkan data dingin ke media penyimpanan yang lebih murah, konsep ini sudah ada cukup lama. Namun, teknologi sebelumnya tidak dapat diimplementasikan secara besar-besaran di pusat data, kuncinya terletak pada akurasi algoritma prediksi yang tidak memadai. Jika prediksi salah, saat program membutuhkan data dan harus memindahkannya dari flash ke DRAM, latensi akan langsung terekspos, dan penurunan kinerja tidak dapat diterima.

Terobosan MEXT terletak pada penggunaan model AI untuk melakukan tugas ini. Predictive Memory Engine-nya terus menganalisis pola akses memori, menggunakan AI untuk menentukan halaman data mana yang paling mungkin digunakan selanjutnya, dan secara aktif memindahkan data dari flash ke DRAM sebelum aplikasi benar-benar mengirimkan permintaan.

Bagi AMD, akuisisi ini melengkapi bagian penting dari kemampuan seluruh tumpukan. Di luar CPU EPYC, GPU Instinct, dan tumpukan perangkat lunak ROCm, lapisan efisiensi memori yang dibawa MEXT memungkinkan AMD menyediakan solusi lengkap dari chip hingga penjadwalan aliran data bagi pelanggan, membantu pelanggan mengurangi total biaya kepemilikan, mengurangi waktu idle GPU "menunggu data", dan memperkuat daya saingnya di pasar infrastruktur AI.

Pada hari pengumuman akuisisi, harga saham AMD naik hampir 7% dalam perdagangan, pasar memberikan suara untuk mengakui jalur ini.

Tentu harus dikatakan, sejauh mana teknologi MEXT akhirnya dapat diimplementasikan dalam produk pusat data AMD masih perlu waktu untuk membuktikan. Perbedaan latensi fisik antara NAND flash dan DRAM memang ada, apakah prediksi AI pada tingkat perangkat lunak benar-benar dapat menjembatani kesenjangan ini, masih perlu dilihat dari kinerja aktual setelah penerapan skala besar.

Apple: Model sisi perangkat, menyimpan model "di" flash

Sementara pusat data pusing dengan biaya DRAM, sisi konsumen juga menghadapi kendala yang sama — kapasitas DRAM perangkat seperti ponsel sangat terbatas, namun harus menampung kebutuhan inferensi model besar sisi perangkat. Jawaban yang diberikan Apple adalah membuat model besar menetap di flash, dan dimuat ke memori sesuai kebutuhan.

Apple AFM 3 Core Advanced terbaru adalah model besar sisi perangkat dengan 20 miliar parameter. Jika dimuat semua ke DRAM dengan cara tradisional, itu akan melebihi batas memori perangkat konsumen. Apple memecahkan masalah ini melalui arsitektivasi sparse activation: model lengkap disimpan di NAND flash, saat inferensi tidak memuat semua bobot, tetapi memilih modul ahli yang diperlukan untuk inferensi berdasarkan prompt input, hanya memuat set kerja 1 hingga 4 miliar parameter ke DRAM.

Diagram skematis arsitektur model AFM 3 Core Advanced

Berbeda dengan model MoE tradisional yang beralih ahli token demi token, menyebabkan seringnya transfer data, Apple menggunakan mekanisme routing berbasis granularitas prompt, dikombinasikan dengan proporsi tinggi ahli bersama yang tetap berada di DRAM, secara signifikan mengurangi jumlah pertukaran antara flash dan memori, meminimalkan latensi pemuatan. Dikombinasikan dengan pengoptimalan seperti pemangkasan tingkat instruksi (IFP) dan penyederhanaan lapisan Transformer, akhirnya puncak penggunaan DRAM model 20 miliar parameter dikendalikan dalam kisaran 2GB hingga 8GB, selanjutnya menyeimbangkan penggunaan memori dan efisiensi komputasi, secara efektif mengatasi masalah penggunaan DRAM yang terlalu besar saat MoE diimplementasikan di sisi perangkat, memungkinkannya berjalan lancar di perangkat seperti iPhone, mewujudkan "model besar memori kecil" untuk inferensi sisi perangkat.

Arsitektur ini bukanlah hasil dari upaya sementara.

Sebenarnya, sejak tahun 2024, tim riset Apple telah menerbitkan makalah "LLM in a Flash", yang secara sistematis memvalidasi jalur teknis menyimpan parameter model besar di flash dan menjadwalkannya sesuai kebutuhan, sambil mengurangi biaya komputasi cloud, memberikan dukungan arsitektur memori yang layak untuk aplikasi AI sisi perangkat, dan mencapai kecepatan inferensi 4-5 kali lipat dan 20-25 kali lipat lebih cepat daripada pemuatan biasa pada CPU dan GPU.

Saat kenaikan harga DRAM merambat dari sisi industri ke elektronik konsumen, solusi ini tidak hanya mendukung pengalaman AI sisi perangkat, tetapi juga mengurangi ketergantungan perangkat pada DRAM kapasitas besar.

Secara keseluruhan, dua jalur utama AMD dan Apple berkembang secara bersamaan untuk pusat data dan sisi perangkat, tetapi keduanya menunjuk pada kesimpulan yang sama: hierarki memori inferensi AI sedang direstrukturisasi, KV cache frekuensi rendah, bobot model, dan data sisi perangkat secara bertahap akan tenggelam dari HBM/DRAM mahal ke lapisan NAND Flash/SSD, membentuk arsitektur penyimpanan multi-level.

Perubahan arsitektur ini menimbulkan efek berantai multi-level di sepanjang rantai industri. Menurut penelitian Citrini Research, lapisan yang paling langsung diuntungkan adalah produsen NAND asli.

Marvell: Kompresi perangkat keras + CXL, memperluas memori fisik

Jika AMD dan Apple mengambil jalur optimasi perangkat lunak dan arsitektur, Marvell memilih terobosan tingkat perangkat keras, mengandalkan protokol interkoneksi kecepatan tinggi CXL, menggunakan teknologi kompresi in-line perangkat keras untuk langsung meningkatkan kapasitas setara DRAM fisik.

Pada Juni 2026, Marvell merilis rangkaian pengontrol CXL Structera — Structera X (pengontrol ekspansi memori) dan Structera A (akselerator dekat memori). Kedua chip dilengkapi dengan modul kompresi perangkat keras CDB (Compression-Decompression Block) buatan sendiri.

Diketahui, saat data ditulis ke DRAM, modul CDB mengompresi secara real-time melalui algoritma LZ4 lossless yang disesuaikan; saat dibaca, dekompresi dilakukan secara sinkron. Seluruh proses berlangsung secara independen di jalur memori, tidak menggunakan daya komputasi CPU host, dan sepenuhnya transparan bagi aplikasi di atasnya. Bergantung pada jenis data, 1GB DRAM fisik dapat menghasilkan kapasitas logis setara 2 hingga 3,64 kali lipat — dalam skenario basis data campuran, rasio kompresi rata-rata dapat mencapai 3,64:1, setara dengan menggunakan kurang dari sepertiga memori fisik untuk memenuhi kebutuhan bisnis yang sama.

Selain itu, solusi ini memiliki dua nilai pengurangan biaya tambahan: pertama, penggunaan kembali memori lama, pengontrol Structera X mendukung koneksi memori DDR4, dapat memasukkan DDR4 yang sudah pensiun ke dalam kumpulan memori CXL, mengurangi pembelian baru DDR5 yang mahal; kedua, pooling memori, melalui protokol CXL, mematahkan batasan eksklusivitas memori pada satu CPU, memungkinkan banyak server berbagi sumber daya memori, menyerap kapasitas idle dalam sistem.

Dengan harga spot DDR5 saat ini $27 hingga $37 per GB, biaya perangkat keras DRAM untuk kumpulan memori 12 TB saja mendekati $500.000; jika diperkirakan dengan rasio kompresi 3 kali lipat, pembelian DRAM fisik dapat dikurangi dua pertiga, menghemat lebih dari $300.000 per kumpulan.

Sandisk: Menempatkan NAND di bawah GPU

Solusi Sandisk lebih agresif — merestrukturisasi arsitektur memori chip AI dari tingkat kemasan.

Sandisk bersama SK Hynix mendorong standardisasi High Bandwidth Flash (HBF), berusaha membuat NAND flash lebih dekat ke inti komputasi, menciptakan lapisan penyimpanan baru antara HBM dan SSD.

Paten Sandisk mengusulkan arsitektur "NAND di bawah GPU": menumpuk NAND flash berkapasitas tinggi tepat di bawah GPU atau akselerator AI, dikelilingi oleh tumpukan HBM, dengan memperpendek jarak transmisi data secara signifikan, meningkatkan bandwidth akses flash. Sesuai rencana, HBF akan kompatibel secara fisik dengan HBM4, kapasitasnya 8 hingga 16 kali lipat dari HBM dengan volume yang sama, dan biayanya memiliki keunggulan signifikan, terutama untuk skenario intensif baca seperti inferensi konteks panjang, cache KV, dan streaming bobot model.

Teknologi yang disebut HBF (High Bandwidth Flash) ini diposisikan di antara HBM dan SSD. Jika HBM diibaratkan sebagai "buku referensi" di atas meja, maka NAND-based HBF adalah "lemari buku" di samping GPU. HBM menangani data yang perlu segera ditanggapi, sementara NAND di bawah GPU menyimpan data yang lebih besar dan sering dibaca-tulis.

Target Sandisk adalah mengembangkan HBF dengan bandwidth mendekati HBM, menyediakan kapasitas 8 hingga 16 kali lipat HBM dengan biaya serupa. Pada Februari 2026, Sandisk dan SK Hynix resmi meluncurkan aliansi standardisasi spesifikasi HBF. SK Hynix menyumbangkan teknologi tumpukan, kemasan, dan interposer yang terakumulasi di HBM, sementara Sandisk membawa kemampuan desain NAND dan flash. Kedua pihak berencana meluncurkan sampel pertama HBF pada paruh kedua 2026, dan diterapkan pada perangkat inferensi AI pada awal 2027. Targetnya adalah membangun arsitektur memori tiga tingkat: HBM bertanggung jawab atas komputasi instan dengan latensi sangat rendah, HBF menangani data berkapasitas besar, throughput tinggi yang sering dibaca, sementara SSD menangani penyimpanan dingin, masing-masing tingkat menjalankan fungsinya.

Tentu saja, HBF menuju komersialisasi skala besar masih perlu melewati berbagai rintangan. Kepadatan panas tinggi yang ditimbulkan oleh tumpukan chip komputasi dan NAND, tantangan hasil dari ikatan hibrida dan routing kompleks, serta ekosistem perangkat lunak untuk penjadwalan data panas-dingin berlapis, semuanya perlu waktu untuk disempurnakan.

Menurut perkiraan Shin Young Securities Korea, pasar HBF diperkirakan akan terbentuk pada tahun 2027, dan tumbuh menjadi $12 miliar pada tahun 2030.

Bagi penyedia cloud dengan puluhan ribu node, ini berarti optimasi belanja modal yang sangat besar. Saat ini Structera sudah menjadi pengontrol CXL pertama di industri yang diproduksi massal dengan kompresi in-line perangkat keras. Solusi teknis terkait telah diajukan ke proyek Open Compute Project (OCP) untuk standardisasi, dan jangkauan adaptasinya akan terus meluas di masa depan.

Pelajaran masa lalu: Jalan 3D XPoint yang belum selesai

Sebenarnya, menggunakan flash untuk memperluas memori utama bukanlah hal baru.

Sejak tahun 2015, Intel dan Micron bersama-sama meluncurkan teknologi penyimpanan 3D XPoint, yang visinya tepat mengenai sakit kepala industri saat ini — menciptakan media penyimpanan baru yang kinerjanya antara DRAM dan NAND flash, mendukung pengalamatan byte, dengan biaya mendekati flash, membangun lapisan baru antara memori dan penyimpanan tradisional.

Sayangnya, 3D XPoint pada akhirnya tidak memenuhi janji awalnya.

Keterlambatan pengembangan proses membuat biayanya menyamai DRAM, sementara kinerjanya hanya beberapa kali lebih cepat dari flash biasa; ditambah lagi strategi tertutup Intel yang mengikatnya dengan prosesor Xeon miliknya sendiri, membuatnya tidak pernah masuk ke pasar mainstream. Akhirnya proyek dihentikan, dan bisnis flash Intel dijual ke SK Hynix. Teknologi yang pernah diharapkan besar ini menjadi catatan menyedihkan di industri penyimpanan.

Jika Intel tidak menyerah pada 3D XPoint, seberapa besar keuntungan yang akan diperoleh sekarang? Sayangnya sejarah tidak memiliki "jika".

Selain itu, beberapa perusahaan rintisan dalam negeri yang mengerjakan solusi komputasi dalam memori dan pooling memori diperkirakan akan mendapat lebih banyak perhatian ke depannya. Bagaimanapun, dengan latar belakang harga DRAM yang tinggi dan sisi pasokan yang tertekan, siapa pun yang dapat menghadirkan solusi optimasi memori yang benar-benar andal, kemungkinan akan mendapatkan tiket putaran berikutnya di pasar modal.

Penutup

Dari kegagalan 3D XPoint hingga berbagai jalur paralel saat ini, eksplorasi industri penyimpanan terhadap efisiensi memori tidak pernah berhenti.

AMD menggunakan prediksi AI untuk menjadwalkan data panas-dingin, Apple menggunakan aktivasi sparse dan penyimpanan flash untuk mengompresi penggunaan memori sisi perangkat, Marvell menggunakan kompresi perangkat keras untuk membuat memori fisik lebih efisien, Sandisk menggunakan tumpukan 3D untuk menempatkan NAND di bawah GPU — jalur teknis keempat perusahaan berbeda, tetapi semuanya menunjuk ke arah yang sama: hierarki memori inferensi AI sedang direstrukturisasi — data panas tetap di DRAM dan HBM untuk memastikan kinerja, data hangat dan dingin secara bertahap tenggelam ke lapisan flash untuk menangani kapasitas, media multi-level bekerja sama untuk menyeimbangkan kinerja dan biaya.

Mahalnya DRAM sedang "memaksa" seluruh industri ke jalan baru. Namun justru tekanan inilah yang melahirkan serangkaian inovasi teknologi yang mengesankan.

Tidak dapat disangkal, kesenjangan fisik latensi antara flash dan DRAM selalu ada, kinerja aktual dari berbagai solusi masih perlu diverifikasi melalui penerapan skala besar. Namun yang pasti, era di mana masalah diselesaikan hanya dengan menumpuk DRAM sudah lewat, sistem memori yang lebih efisien dan lebih berlapis adalah arah baru bagi industri ke depan.

Sumber artikel: Semiconductor Industry Observation

Peringatan risiko dan penafian

        Pasar memiliki risiko, investasi harus berhati-hati. Artikel ini tidak merupakan saran investasi pribadi, juga tidak mempertimbangkan tujuan investasi khusus, situasi keuangan, atau kebutuhan pengguna individu. Pengguna harus mempertimbangkan apakah pendapat, pandangan, atau kesimpulan apa pun dalam artikel ini sesuai dengan situasi spesifik mereka. Investasi sesuai risiko sendiri.
DRAM0,58%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan