HBM vs GDDR:Memori bandwidth tinggi bagaimana mengatasi hambatan "tembok memori" dalam pelatihan dan inferensi AI

Dalam kompetisi AI dengan parameter model besar yang melampaui triliun, kekuatan komputasi GPU tentu menjadi fokus utama, tetapi sebuah komponen yang lebih tersembunyi namun menentukan batas atasnya—memori bandwidth tinggi (High Bandwidth Memory, HBM)—mulai menjadi titik perebutan tertinggi di industri. Jika GPU diibaratkan sebagai mesin super berkinerja tinggi dengan ribuan silinder, maka HBM adalah sistem bahan bakar yang terus-menerus menyuplai data ke mesin tersebut. Jika suplai bahan bakar tidak cukup, bahkan mesin sekuat apa pun hanya akan berputar tanpa hasil.

Secara umum, industri menyadari bahwa bottleneck kekuatan komputasi AI tidak lagi terbatas pada unit komputasi itu sendiri, melainkan lebih banyak terjebak pada efisiensi pemindahan data. Data menunjukkan bahwa dalam arsitektur komputasi tradisional, konsumsi energi untuk pemindahan data sering kali mencapai 60%-80% dari total energi sistem. Dalam skenario inferensi, tingkat idle kekuatan GPU bahkan bisa mencapai 99%. Faktor pembatas utama di balik ini adalah bandwidth memori.

HBM berkat teknologi tumpukan 3D dan melalui silikon (TSV), mampu mencapai bandwidth dan efisiensi energi yang jauh melampaui memori tradisional per satuan luas, dan telah menjadi standar bagi akselerator AI raksasa seperti NVIDIA, AMD, Google, dan lainnya.

Prinsip Teknologi: Bagaimana HBM Membangun Ulang Saluran Data GPU dan Memori

Dari “Mobil Balap Datar” ke “Lift Vertikal”

HBM bukanlah media penyimpanan yang benar-benar baru, melainkan seperangkat standar antarmuka dan teknologi kemasan yang mendefinisikan “bagaimana membuat DRAM terhubung dengan bandwidth sangat tinggi”. Jalur teknologi inti dapat dipecah menjadi tiga lapisan:

Tumpukan 3D—Menumpuk chip-chip DRAM berlapis-lapis secara vertikal (saat ini umumnya 8 hingga 12 lapis, HBM4 sudah didorong ke 16 lapis), meningkatkan kepadatan penyimpanan dan jumlah saluran paralel secara eksponensial dalam area fisik yang sama.

Silikon Through-Silicon Via (TSV)—Mengukir lubang mikro berdiameter 5-10 mikrometer di dalam setiap chip DRAM, mengisi dengan bahan konduktif untuk membentuk saluran vertikal, memungkinkan koneksi antar lapisan hingga ribuan tingkat. Berbeda dengan jalur PCB tradisional yang panjangnya bisa mencapai sentimeter bahkan meter, sinyal TSV dipercepat dan diperkecil jaraknya ke mikrometer, secara signifikan mengurangi redaman dan latensi sinyal.

Lapisan Perantara Silikon (Interposer)—Tumpukan HBM terhubung melalui bump mikro ke lapisan perantara silikon, yang kemudian terhubung ke chip GPU/CPU dalam jarak sangat dekat, membentuk modul kemasan terpadu. Struktur ini diimplementasikan melalui proses kemasan canggih seperti CoWoS dan lainnya yang mendukung integrasi padat 2.5D.

Keberhasilan utama dari arsitektur ini terletak pada lebar bus. Sebuah tumpukan HBM biasanya memiliki lebar bus 1024 bit, dan HBM3E bahkan dapat diperluas hingga 2048 bit. Sebagai contoh, HBM3E produksi massal terbaru dari SK Hynix memiliki kapasitas 24GB per chip dan bandwidth melampaui 1TB/s. Sebaliknya, solusi GDDR tradisional hanya memiliki lebar bus 32 bit (per chip) atau 384 bit (gabungan beberapa chip), sehingga kapasitas transfer data keduanya berbeda jauh.

Dasar desain HBM adalah “lebar dan lambat”—menggunakan banyak saluran paralel untuk mendapatkan bandwidth total, dengan setiap saluran beroperasi pada frekuensi relatif rendah, sehingga efisiensi energi jauh lebih baik dibandingkan solusi frekuensi tinggi. Sebaliknya, GDDR mengikuti filosofi “sempit dan cepat”—mengandalkan frekuensi kerja yang lebih tinggi dan sedikit saluran untuk memeras bandwidth. Kedua filosofi ini cocok untuk skenario berbeda: HBM mengejar throughput ekstrem, sementara GDDR mencari keseimbangan antara throughput dan biaya.

HBM vs GDDR6: Pertarungan “Lebar dan Lambat” vs “Sempit dan Cepat”

HBM dan GDDR6 keduanya adalah keluarga memori DRAM, dengan misi utama menyediakan saluran akses data ke GPU, tetapi berbeda secara fundamental dalam tujuan desain, karakteristik performa, dan struktur biaya.

Bandwidth: HBM3E satu tumpukan mampu mencapai 1,2TB/s, dan generasi berikutnya HBM4 diperkirakan akan melompat ke atas 2,0TB/s. GDDR6X secara limit, mencapai sekitar 1TB/s per kartu, sudah mendekati batas fisik. Dari segi efisiensi energi per bandwidth, HBM jauh lebih unggul, dan dalam deployment skala besar di pusat data AI, perbedaan ini secara langsung mengubah biaya operasional yang dapat diukur.

Daya dan Latensi: Karena jalur TSV sangat pendek, konsumsi energi HBM sekitar 30% lebih rendah dibanding GDDR5. Dalam hal latensi, GDDR bergantung pada jalur PCB dan komunikasi dengan GPU, biasanya dalam tingkat mikrodetik; HBM menempatkan memori langsung di dekat chip GPU, sehingga latensi ditekan ke tingkat nanodetik. Perlu dicatat bahwa dalam skenario throughput ekstrem, latensi akses acak HBM sedikit lebih tinggi daripada GDDR, tetapi untuk pola akses paralel besar seperti pelatihan dan inferensi AI, throughput adalah faktor utama.

Biaya: Ini adalah kelemahan terbesar HBM. Data industri menunjukkan bahwa biaya 1GB HBM lebih dari 25 USD, sementara GDDR6 hanya sekitar 5-8 USD. Dalam total biaya GPU kelas atas, HBM bisa menyumbang 60%-80%. Dari sisi biaya per bandwidth, GDDR6 sebenarnya lebih efisien, dan dalam skenario di mana kebutuhan bandwidth absolut tidak tinggi, solusi GDDR6 menawarkan rasio biaya-keuntungan yang lebih baik.

Secara keseluruhan, pilihan antara HBM dan GDDR adalah soal trade-off antara batas performa dan batas biaya. HBM cocok untuk skenario “harus mencapai ambang bandwidth tertentu agar bisa berjalan”—misalnya inferensi model besar dengan puluhan triliun parameter, di mana di bawah batas bandwidth tertentu sistem tidak bisa berfungsi secara efektif. GDDR6 lebih cocok untuk skenario “mencari performa yang dapat diterima dengan biaya terendah”—seperti deployment model menengah dan kecil dengan parameter 7-13 miliar.

Keduanya bukan saling menggantikan, melainkan merupakan jalur teknologi paralel yang melayani kebutuhan berbeda. Tetapi dalam skenario pelatihan AI dan inferensi skala besar, keunggulan HBM secara bertahap mulai menekan posisi GDDR di jalur utama.

“Tembok Memori”: Mengapa Model AI yang Lebih Besar Membuat Permintaan HBM Meningkat Secara Eksponensial

Memahami lonjakan kebutuhan HBM secara eksponensial harus kembali ke salah satu hambatan inti dalam paradigma komputasi AI—“tembok memori” (Memory Wall).

Percepatan kekuatan komputasi vs. bandwidth

Selama tiga dekade terakhir, kecepatan prosesor mengikuti hukum Moore, meningkat dua kali lipat setiap 18-24 bulan; sementara kecepatan bandwidth memori berkembang jauh lebih lambat. Berdasarkan studi tentang AI dan tembok memori, kekuatan komputasi AI meningkat sekitar 3 kali lipat setiap dua tahun, tetapi bandwidth memori hanya meningkat sekitar 1,6 kali, dan bandwidth jaringan interkoneksi bahkan lebih rendah. Ini berarti setiap peningkatan kekuatan komputasi, kemampuan pemindahan data relatif “menurun”.

Kontradiksi ini sangat terasa saat inferensi. Pada tahap pelatihan, operasi utama adalah perkalian matriks (GEMM), dengan intensitas komputasi tinggi, mencapai lebih dari 100 FLOPs/byte; sedangkan pada inferensi, operasi utama adalah perkalian matriks-vektor (GEMV), dengan intensitas komputasi sering di bawah 2 FLOPs/byte. Semakin rendah intensitas ini, semakin besar ketergantungan sistem pada bandwidth memori daripada kekuatan komputasi—inilah asal-usul “tembok bandwidth”.

Beban pemindahan saat inferensi model besar

Proses inferensi model besar secara dasar adalah: setiap kali menghasilkan token, seluruh parameter model harus dimuat dari memori ke inti komputasi. Sebagai contoh, model Llama 3 70B dengan presisi FP16 memiliki bobot sekitar 140GB. Setiap kali menghasilkan satu token, seluruh bobot ini harus dipindahkan sekali. Jika ingin menghasilkan 30 token per detik secara lancar, bandwidth memori antara HBM dan inti harus mampu mendukung sekitar 4,2TB per detik.

Kebutuhan ini sudah mendekati atau bahkan melebihi batas hardware saat ini. H100 SXM5 dari NVIDIA memiliki bandwidth HBM sekitar 3,35TB/s. Artinya, bahkan kartu akselerator AI paling canggih pun dalam menghadapi model 70B parameter sudah berada dalam kondisi “hampir cukup”. Ketika parameter model meningkat ke ratusan miliar, bahkan triliunan, kebutuhan bandwidth akan meningkat secara linier bahkan lebih dari linier.

Keterbatasan kapasitas dan bandwidth secara bersamaan

Kapasitas memori juga menjadi faktor penting. Jika total parameter model melebihi kapasitas HBM satu GPU, maka harus membagi model ke beberapa GPU dan menjalankan secara paralel—yang dikenal sebagai tensor parallelism. Tetapi, ini menimbulkan bottleneck komunikasi baru: GPU harus sering bertukar hasil tengah, yang akhirnya bisa memperlambat efisiensi secara keseluruhan.

Oleh karena itu, nilai HBM terletak pada dua aspek: bandwidth menentukan kecepatan dan batas latensi output per kata di satu GPU; kapasitas menentukan apakah model bisa muat dalam satu GPU, berapa banyak GPU yang dibutuhkan, dan berapa biaya komunikasi antar GPU.

Saat ini, jalur industri sudah jelas: HBM mulai bertransformasi dari “opsi premium” menjadi “standar” dalam kekuatan AI. Menurut data TrendForce, permintaan HBM akan meningkat lebih dari 130% pada 2025, dan terus tumbuh lebih dari 70% pada 2026. Dari sekadar komponen pendukung di bidang grafis, HBM kini menjadi komponen inti yang tak tergantikan dalam rantai kekuatan AI.

Dampak Seluruh Rantai Industri: Dari Pilihan Teknologi ke Ketidakseimbangan Pasar Triliunan

Pertumbuhan pasar

Pertumbuhan pasar HBM melampaui prediksi awal banyak lembaga. Menurut data SEMI China, pada 2026, pasar HBM diperkirakan akan tumbuh 58% menjadi 54,6 miliar dolar AS, menyumbang hampir 40% dari total pasar DRAM. Micron memperkirakan pasar potensial HBM (TAM) akan tumbuh dengan CAGR sekitar 40%, dari sekitar 35 miliar dolar AS pada 2025 menjadi 100 miliar dolar AS pada 2028—angka ini sudah melebihi total pasar DRAM tahun 2024.

Keterbatasan pasokan dari sisi penawaran

Namun, lonjakan permintaan ini bertabrakan dengan kapasitas produksi yang kaku. Data SEMI menunjukkan bahwa meskipun Samsung, SK Hynix, dan Micron telah mengalihkan sekitar 70% dari kapasitas baru dan yang dapat dialokasikan ke produksi HBM, kekurangan kapasitas total masih sekitar 50%-60%.

Akar masalahnya terletak pada tingginya hambatan produksi HBM. Pembuatan HBM tidak hanya membutuhkan proses manufaktur DRAM canggih (saat ini sudah maju ke node 1β nm), tetapi juga teknologi kemasan canggih seperti TSV, bonding mikro, dan kemasan wafer-level. Kapasitas kemasan seperti CoWoS, yang menjadi platform utama integrasi HBM dan GPU, meskipun diperkirakan akan meningkat menjadi lebih dari 125.000 chip per bulan pada akhir 2026 (naik sekitar 79%), tetap tidak mampu memenuhi seluruh permintaan dari pelanggan besar seperti NVIDIA, AMD, dan Broadcom.

Risiko rantai pasok dan transmisi harga

Kekurangan kapasitas ini langsung tercermin dalam harga. Harga per chip HBM3E meningkat sekitar 5%-10% selama 2025. Lebih dari itu, setelah ketiga produsen utama mengalihkan kapasitas besar ke HBM, pasokan memori DDR untuk konsumen menurun secara signifikan, dan harga diperkirakan akan terus naik hingga akhir 2026. Kekurangan pasokan HBM ini memicu kenaikan harga yang berdampak luas ke seluruh rantai pasok memori.

Pada Juni 2026, Jensen Huang mengonfirmasi bahwa SK Hynix, Samsung, dan Micron telah melewati proses sertifikasi dan mulai memasok chip HBM4 secara massal. Samsung bahkan memulai produksi massal HBM4 sejak Februari 2026. Tetapi, meskipun ketiga raksasa ini memperluas kapasitas, kekurangan pasokan HBM tetap sekitar 50% pada 2025-2026. Keseimbangan pasokan dan permintaan HBM dalam jangka pendek masih sulit dicapai. Percepatan produksi di hulu, hambatan kemasan, dan permintaan kekuatan AI yang terus meningkat membentuk pola pasokan yang dinamis namun terus menegang.

Penutup

Dari inovasi teknologi dasar hingga ketergantungan yang kaku pada skenario kekuatan AI, dan dari ketidakseimbangan pasokan industri secara keseluruhan, HBM telah berkembang dari cabang teknologi memori menjadi titik kompetisi utama dalam infrastruktur AI.

Keunggulan HBM dalam pelatihan dan inferensi AI berasal dari logika komputasi yang sangat mendasar: ketika ukuran parameter model melampaui ambang tertentu, bandwidth bukan lagi “faktor pengoptimalan”, melainkan “faktor pengaktifan”—di bawah ambang batas ini, sistem tidak dapat berjalan secara efektif. Meskipun GDDR6 memiliki keunggulan biaya, arsitektur jalur sempit dan frekuensi tinggi-nya tidak mampu menandingi kepadatan operasi model triliunan parameter dari segi bandwidth dan efisiensi energi. Perbedaan struktural ini menentukan bahwa di jalur utama kekuatan AI, HBM dan GDDR bukan sekadar bersaing, melainkan melayani kebutuhan berbeda secara hierarkis.

Ke depan, produksi massal HBM4 (dengan bandwidth per tumpukan lebih dari 2TB/s), kematangan teknologi tumpukan 16 lapis, dan pengenalan proses kemasan baru seperti hybrid bonding akan semakin meningkatkan batas performa HBM. Namun, yang perlu diperhatikan adalah bahwa perusahaan seperti Huawei mulai mengeksplorasi jalur optimisasi algoritma yang mengurangi ketergantungan pada HBM, termasuk arsitektur SRAM dan komputasi memori terpadu. Apakah HBM mampu mempertahankan keunggulannya melalui inovasi teknologi dan apakah kendala pasokannya dapat diatasi selama siklus ekspansi akan menjadi salah satu variabel terpenting dalam industri kekuatan AI selama beberapa tahun ke depan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan