HBM vs GDDR:Bộ nhớ băng thông cao làm thế nào để vượt qua nút thắt cổ chai về bộ nhớ trong huấn luyện và suy luận AI

Trong cuộc thi AI vượt qua nghìn tỷ tham số của các mô hình lớn, sức mạnh tính toán GPU tất nhiên là tâm điểm, nhưng một thành phần còn kín đáo hơn nhưng quyết định giới hạn tối đa lại đang trở thành điểm chiến tranh của ngành — bộ nhớ băng thông cao (High Bandwidth Memory, HBM). Nếu so GPU như một động cơ siêu cao hiệu suất với hàng vạn xy-lanh, thì HBM chính là hệ thống nhiên liệu cung cấp dữ liệu liên tục cho nó. Nếu việc cung cấp nhiên liệu không theo kịp, dù động cơ mạnh mẽ đến đâu cũng chỉ có thể chạy rỗng.

Trong ngành nhận thức rõ ràng rằng, điểm nghẽn sức mạnh tính toán AI không còn giới hạn ở đơn vị tính toán nữa, mà chủ yếu nằm ở hiệu quả vận chuyển dữ liệu. Dữ liệu cho thấy, trong kiến trúc tính toán truyền thống, năng lượng tiêu thụ của việc vận chuyển dữ liệu thường chiếm 60%-80% tổng năng lượng hệ thống. Trong các kịch bản suy luận, tỷ lệ không hoạt động của GPU thậm chí có thể lên tới 99%. Yếu tố then chốt đằng sau đó chính là băng thông bộ nhớ.

HBM nhờ công nghệ xếp chồng 3D và công nghệ lỗ qua silicon (TSV), đã đạt được băng thông và hiệu quả năng lượng vượt xa bộ nhớ truyền thống trên cùng diện tích, trở thành tiêu chuẩn của các bộ tăng tốc AI của các ông lớn như NVIDIA, AMD, Google.

Nguyên lý kỹ thuật: HBM tái cấu trúc kênh dữ liệu giữa GPU và bộ nhớ như thế nào

Từ “xe đua phẳng” đến “thang máy dọc”

HBM không phải là một loại phương tiện lưu trữ mới hoàn toàn, mà là một bộ tiêu chuẩn về giao diện và quy trình đóng gói xác định “cách để DRAM liên kết với băng thông cực cao”. Các công nghệ cốt lõi của nó có thể phân thành ba cấp độ:

Xếp chồng 3D — xếp chồng các chip DRAM nhiều lớp theo chiều dọc (hiện phổ biến là 8 đến 12 lớp, HBM4 đã tiến tới 16 lớp), trên cùng một diện tích vật lý, tăng gấp đôi mật độ lưu trữ và số kênh song song.

Lỗ qua silicon (TSV) — khắc các lỗ nhỏ đường kính chỉ 5-10 micromet trong từng lớp chip DRAM, điền vật liệu dẫn điện để tạo thành các kênh dọc, liên kết các lớp với nhau hàng nghìn lần. So với mạch in PCB truyền thống, phương án này rút ngắn chiều dài đường truyền tín hiệu từ centimet hoặc mét xuống micromet, giảm đáng kể suy giảm tín hiệu và độ trễ.

Lớp trung gian silicon (Interposer) — xếp chồng HBM kết nối qua các chốt nhô nhỏ với lớp trung gian silicon, rồi lớp này kết nối với chip GPU/CPU trong phạm vi cực ngắn, tạo thành module đóng gói thống nhất. Toàn bộ cấu trúc này được thực hiện qua quy trình đóng gói tiên tiến như CoWoS, tích hợp mật độ cao.

Điểm đột phá cốt lõi của kiến trúc này nằm ở bề rộng của bus. Một bộ xếp chồng HBM thường có bề rộng bus là 1024 bit, còn HBM3E có thể mở rộng tới 2048 bit. Ví dụ, HBM3E sản xuất hàng loạt mới nhất của SK Hynix đã đạt dung lượng 24GB, băng thông vượt 1TB/s. Trong khi đó, các giải pháp GDDR truyền thống chỉ có bề rộng 32 bit (một chip) hoặc 384 bit (kết hợp nhiều chip), khả năng truyền dữ liệu chênh lệch rõ rệt về quy mô.

Thiết kế nền tảng của HBM là “rộng mà chậm” — đổi lấy tổng băng thông lớn bằng cách có nhiều kênh song song, mỗi kênh chạy ở tần số thấp hơn, giúp hiệu quả năng lượng vượt trội so với các giải pháp tần số cao. Trong khi đó, GDDR theo triết lý “hẹp mà nhanh” — dựa vào tần số hoạt động cao hơn để ép băng thông từ ít kênh hơn. Hai triết lý này phù hợp với các kịch bản ứng dụng khác nhau: HBM hướng tới tối đa hóa thông lượng, còn GDDR cân bằng giữa thông lượng và chi phí.

HBM vs GDDR6: cuộc đối đầu “rộng mà chậm” và “hẹp mà nhanh”

HBM và GDDR6 đều thuộc dòng bộ nhớ DRAM, đều nhằm cung cấp kênh truy cập dữ liệu cho GPU, nhưng mục tiêu thiết kế, đặc tính hiệu năng và cấu trúc chi phí của chúng khác nhau về bản chất.

Băng thông: HBM3E một bộ xếp chồng có thể đạt tới 1,2TB/s, thế hệ tiếp theo HBM4 dự kiến vượt 2,0TB/s. Trong khi đó, băng thông tối đa của GDDR6X trên card đồ họa là khoảng 1TB/s, đã gần đạt giới hạn vật lý. Nhưng xét về hiệu quả năng lượng trên mỗi đơn vị băng thông, HBM rõ ràng vượt trội, trong các trung tâm dữ liệu AI, sự khác biệt này chuyển thành lợi thế rõ ràng về chi phí vận hành.

Tiêu thụ năng lượng và độ trễ: Do đường dẫn TSV cực ngắn, năng lượng tiêu thụ của HBM giảm khoảng 30% so với GDDR5. Về độ trễ, GDDR dựa vào đường truyền PCB và giao tiếp với GPU, thường ở mức micro giây; còn HBM đóng gói trực tiếp gần chip GPU, độ trễ rút ngắn xuống nanosecond. Đáng chú ý, trong các kịch bản tối đa hóa thông lượng, độ trễ truy cập ngẫu nhiên của HBM cao hơn GDDR, nhưng đối với các truy cập theo luồng lớn, như trong huấn luyện và suy luận AI, băng thông mới là yếu tố quyết định.

Chi phí: Đây là điểm yếu rõ rệt của HBM. Theo dữ liệu ngành, 1GB HBM có giá hơn 25 USD, trong khi GDDR6 chỉ khoảng 5-8 USD. Trong các GPU cao cấp, tỷ lệ chi phí HBM chiếm tới 60%-80% tổng chi phí. Trong khi đó, hiệu suất băng thông của GDDR6 trên mỗi đồng chi phí thực tế vượt trội hơn HBM — khi yêu cầu về băng thông tối đa không quá cao, GDDR6 có lợi thế rõ ràng về mặt chi phí hiệu năng.

Tổng thể, việc lựa chọn giữa HBM và GDDR phản ánh một sự cân bằng giữa giới hạn hiệu năng và chi phí. HBM phù hợp với các kịch bản “phải đạt ngưỡng băng thông nhất định mới chạy được” — như suy luận các mô hình lớn hàng nghìn tỷ tham số, nếu thấp hơn ngưỡng đó, hệ thống sẽ không hoạt động hiệu quả. GDDR6 phù hợp với các kịch bản “tìm kiếm hiệu năng chấp nhận được với chi phí thấp nhất” — như triển khai các mô hình trung bình nhỏ từ 7B đến 13B tham số.

Chúng không thay thế lẫn nhau, mà là các giải pháp phân tầng phù hợp với các nhu cầu khác nhau. Nhưng trong các kịch bản huấn luyện AI và suy luận quy mô lớn, lợi thế của HBM đang dần đẩy GDDR ra khỏi sân chơi cốt lõi.

“Vách ngăn bộ nhớ”: Tại sao càng lớn mô hình AI, nhu cầu HBM càng tăng theo cấp số nhân

Để hiểu rõ sự bùng nổ nhu cầu HBM, cần quay lại một giới hạn cốt lõi của tính toán AI — “Vách ngăn bộ nhớ” (Memory Wall).

Tốc độ tăng của sức mạnh tính toán và băng thông: Trong 30 năm qua, tốc độ tăng của sức mạnh xử lý theo quy luật của Moore, mỗi 18-24 tháng gấp đôi; nhưng tốc độ nâng cấp băng thông bộ nhớ lại chậm hơn nhiều. Nghiên cứu về AI và vách ngăn bộ nhớ cho thấy, mỗi hai năm, sức mạnh tính toán của AI tăng khoảng 3 lần, còn băng thông bộ nhớ chỉ tăng khoảng 1.6 lần, và băng thông mạng liên kết còn thấp hơn nữa. Điều này có nghĩa là mỗi lần nâng cấp sức mạnh tính toán, khả năng vận chuyển dữ liệu của bộ nhớ lại “tụt hậu”.

Điều này đặc biệt rõ rệt trong giai đoạn suy luận. Trong huấn luyện, chủ yếu dựa vào phép nhân ma trận (GEMM), mật độ tính toán cao, cường độ tính toán có thể đạt trên 100 FLOPs/byte; còn trong suy luận, chủ yếu là phép nhân ma trận vector (GEMV), cường độ tính toán thường dưới 2 FLOPs/byte. Càng thấp, giới hạn hiệu năng của hệ thống càng phụ thuộc vào băng thông bộ nhớ chứ không phải khả năng tính toán — chính là hiệu ứng “vách ngăn băng thông”.

Gánh nặng vận chuyển của các mô hình lớn: Quy trình suy luận của các mô hình lớn có thể tóm tắt như sau: mỗi khi sinh ra một token, toàn bộ tham số của mô hình phải được tải từ bộ nhớ vào trung tâm tính toán. Ví dụ, mô hình Llama 3 70B có trọng số khoảng 140GB ở độ chính xác FP16. Mỗi lần sinh ra một token, toàn bộ 140GB này phải được vận chuyển. Để duy trì tốc độ sinh 30 token mỗi giây, băng thông giữa HBM và trung tâm tính toán cần hỗ trợ khoảng 4.2TB/s.

Yêu cầu này đã gần như vượt quá giới hạn của phần cứng hiện tại. Ví dụ, NVIDIA H100 SXM5 có băng thông HBM là 3.35TB/s. Nghĩa là, ngay cả các card AI cao cấp nhất, khi đối mặt với mô hình 70B tham số, cũng đang ở trạng thái “gần đủ dùng”. Khi quy mô tham số của mô hình tiến tới hàng trăm tỷ, nghìn tỷ, nhu cầu băng thông sẽ tăng theo cấp số nhân hoặc vượt quá.

Hai giới hạn về dung lượng và băng thông: Dung lượng bộ nhớ là một chiều quan trọng khác. Nếu tổng tham số của mô hình vượt quá dung lượng HBM của một GPU, phải chia nhỏ mô hình ra nhiều GPU để chạy song song — gọi là phân tách tensor. Nhưng cách này gây ra chi phí truyền thông mới: các GPU cần truyền kết quả trung gian liên tục, cuối cùng có thể làm giảm hiệu quả tổng thể.

Vì vậy, giá trị của HBM nằm ở hai cấp độ: băng thông quyết định tốc độ sinh ra từ khóa và độ trễ tối thiểu của suy luận, còn dung lượng quyết định xem mô hình có thể nhét vào một GPU hay không, cần bao nhiêu GPU, và chi phí truyền dữ liệu liên GPU là bao nhiêu.

Hiện tại, xu hướng ngành đã rõ ràng: HBM đang từ “tùy chọn cao cấp” trở thành “thiết bị tiêu chuẩn” của sức mạnh tính toán AI. Theo dữ liệu của TrendForce, nhu cầu HBM dự kiến tăng hơn 130% vào năm 2025, và tiếp tục tăng hơn 70% vào năm 2026 dựa trên cơ sở đã cao. Từ một thành phần phụ trong xử lý đồ họa, HBM đã trở thành thành phần trung tâm không thể thiếu trong chuỗi cung ứng sức mạnh AI.

Chuỗi cung ứng toàn ngành: Từ lựa chọn công nghệ đến mất cân đối cung cầu thị trường nghìn tỷ

Quy mô thị trường tăng vọt

Tốc độ mở rộng của thị trường HBM vượt xa dự đoán ban đầu của nhiều tổ chức. Theo dữ liệu của SEMI Trung Quốc, dự kiến đến 2026, quy mô thị trường HBM sẽ tăng 58% lên 54,6 tỷ USD, chiếm gần 40% toàn bộ thị trường DRAM. Micron dự báo, quy mô thị trường tiềm năng (TAM) của HBM sẽ có CAGR khoảng 40%, từ khoảng 35 tỷ USD năm 2025 lên 100 tỷ USD năm 2028 — con số này đã vượt qua quy mô toàn bộ thị trường DRAM năm 2024.

Hạn chế về cung ứng

Nhưng sự bùng nổ nhu cầu đi kèm với khả năng cung cấp cố định của năng lực sản xuất tạo ra mâu thuẫn rõ rệt. Theo dữ liệu của SEMI, dù Samsung, SK Hynix, Micron đã chuyển 70% công suất mới hoặc có thể điều chỉnh sang sản xuất HBM, tổng cung HBM vẫn còn thiếu hụt khoảng 50%-60%.

Nguyên nhân của giới hạn này nằm ở rào cản cao trong sản xuất HBM. Quá trình sản xuất HBM đòi hỏi công nghệ chế tạo DRAM tiên tiến (hiện các nhà sản xuất hàng đầu đã tiến tới 1β nm), cùng với các công nghệ đóng gói tiên tiến như khắc TSV, ghép nối micro bump, đóng gói wafer-level. Trong đó, công suất đóng gói CoWoS của TSMC, trung tâm của HBM và GPU tích hợp, dự kiến cuối 2026 sẽ mở rộng lên hơn 125,000 tấm mỗi tháng, tăng khoảng 79%, nhưng vẫn chưa thể đáp ứng hoàn toàn các đơn hàng của NVIDIA, AMD, Broadcom.

Rủi ro chuỗi cung ứng và truyền giá

Thiếu hụt năng lực sản xuất thể hiện rõ qua giá cả. Giá của HBM3E trong năm 2025 đã tăng 5%-10%. Thêm vào đó, khi các nhà sản xuất lớn chuyển hướng lớn sang HBM, nguồn cung DDR tiêu dùng giảm rõ rệt, dự kiến giá sẽ tiếp tục tăng đến cuối 2026. Nguồn cung thiếu hụt của HBM đang gây ảnh hưởng đến toàn bộ chuỗi cung ứng bộ nhớ rộng hơn qua việc đẩy giá.

Vào tháng 6 năm 2026, Jensen Huang xác nhận rằng SK Hynix, Samsung và Micron đã được chứng nhận và bắt đầu cung cấp hàng loạt chip HBM4, Samsung đã khởi động sản xuất hàng loạt HBM4 từ tháng 2 năm 2026. Nhưng ngay cả khi ba ông lớn mở rộng sản xuất đồng bộ, khoảng cách cung cầu HBM trong 2025-2026 vẫn còn khoảng 50%. Cân bằng cung cầu trong ngắn hạn vẫn còn khó đạt được. Tốc độ mở rộng của nhà cung cấp, giới hạn đóng gói, và nhu cầu tăng trưởng nhanh của AI tạo thành một bức tranh cung cầu luôn căng thẳng nhưng liên tục.

Kết luận

Từ đổi mới nguyên lý kỹ thuật nền tảng, đến sự phụ thuộc cứng nhắc của các kịch bản tính toán AI, rồi đến mất cân đối cung cầu toàn ngành, HBM đã từ một nhánh trong tiến trình phát triển công nghệ bộ nhớ, trở thành điểm chiến lược trung tâm trong cạnh tranh hạ tầng AI.

Sự không thể thay thế của HBM trong huấn luyện và suy luận AI bắt nguồn từ một logic tính toán rất cơ bản: khi quy mô tham số của mô hình vượt qua một ngưỡng nhất định, băng thông không còn là một “tùy chọn tối ưu” nữa, mà trở thành một “điều kiện kích hoạt” — dưới ngưỡng đó, hệ thống không thể vận hành hiệu quả. GDDR6 dù có lợi thế về chi phí, nhưng kiến trúc băng thông hẹp, tần số cao của nó khó có thể phù hợp với mật độ tính toán của các mô hình hàng nghìn tỷ tham số. Sự khác biệt mang tính cấu trúc này quyết định rằng, trong sân chơi cốt lõi của sức mạnh tính toán AI, HBM và GDDR không đơn thuần là cạnh tranh, mà là các giải pháp phân tầng phù hợp với các nhu cầu khác nhau.

Trong tương lai, việc sản xuất hàng loạt HBM4 (băng thông dự kiến vượt 2TB/s trên một bộ xếp chồng), công nghệ xếp chồng 16 lớp, và các công nghệ đóng gói lai sẽ tiếp tục nâng cao giới hạn hiệu năng của HBM. Nhưng cũng cần chú ý rằng, các nhà sản xuất như Huawei đã bắt đầu khám phá các hướng tối ưu hóa thuật toán giảm phụ thuộc vào HBM, như kiến trúc SRAM và tích hợp tính toán bộ nhớ. Liệu HBM có thể duy trì vị thế dẫn đầu trong quá trình đổi mới công nghệ, và khả năng mở rộng cung ứng có thể giải quyết các hạn chế trong chu kỳ mở rộng sản xuất — đó sẽ là các biến số quan trọng nhất của chuỗi ngành AI trong những năm tới.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim