Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
HBM vs GDDR:Bộ nhớ băng thông cao làm thế nào để vượt qua nút thắt cổ chai về bộ nhớ trong huấn luyện và suy luận AI
Trong cuộc thi AI vượt qua nghìn tỷ tham số của các mô hình lớn, sức mạnh tính toán GPU tất nhiên là tâm điểm, nhưng một thành phần còn kín đáo hơn nhưng quyết định giới hạn tối đa lại đang trở thành điểm chiến tranh của ngành — bộ nhớ băng thông cao (High Bandwidth Memory, HBM). Nếu so GPU như một động cơ siêu cao hiệu suất với hàng vạn xy-lanh, thì HBM chính là hệ thống nhiên liệu cung cấp dữ liệu liên tục cho nó. Nếu việc cung cấp nhiên liệu không theo kịp, dù động cơ mạnh mẽ đến đâu cũng chỉ có thể chạy rỗng.
Trong ngành nhận thức rõ ràng rằng, điểm nghẽn sức mạnh tính toán AI không còn giới hạn ở đơn vị tính toán nữa, mà chủ yếu nằm ở hiệu quả vận chuyển dữ liệu. Dữ liệu cho thấy, trong kiến trúc tính toán truyền thống, năng lượng tiêu thụ của việc vận chuyển dữ liệu thường chiếm 60%-80% tổng năng lượng hệ thống. Trong các kịch bản suy luận, tỷ lệ không hoạt động của GPU thậm chí có thể lên tới 99%. Yếu tố then chốt đằng sau đó chính là băng thông bộ nhớ.
HBM nhờ công nghệ xếp chồng 3D và công nghệ lỗ qua silicon (TSV), đã đạt được băng thông và hiệu quả năng lượng vượt xa bộ nhớ truyền thống trên cùng diện tích, trở thành tiêu chuẩn của các bộ tăng tốc AI của các ông lớn như NVIDIA, AMD, Google.
Nguyên lý kỹ thuật: HBM tái cấu trúc kênh dữ liệu giữa GPU và bộ nhớ như thế nào
Từ “xe đua phẳng” đến “thang máy dọc”
HBM không phải là một loại phương tiện lưu trữ mới hoàn toàn, mà là một bộ tiêu chuẩn về giao diện và quy trình đóng gói xác định “cách để DRAM liên kết với băng thông cực cao”. Các công nghệ cốt lõi của nó có thể phân thành ba cấp độ:
Xếp chồng 3D — xếp chồng các chip DRAM nhiều lớp theo chiều dọc (hiện phổ biến là 8 đến 12 lớp, HBM4 đã tiến tới 16 lớp), trên cùng một diện tích vật lý, tăng gấp đôi mật độ lưu trữ và số kênh song song.
Lỗ qua silicon (TSV) — khắc các lỗ nhỏ đường kính chỉ 5-10 micromet trong từng lớp chip DRAM, điền vật liệu dẫn điện để tạo thành các kênh dọc, liên kết các lớp với nhau hàng nghìn lần. So với mạch in PCB truyền thống, phương án này rút ngắn chiều dài đường truyền tín hiệu từ centimet hoặc mét xuống micromet, giảm đáng kể suy giảm tín hiệu và độ trễ.
Lớp trung gian silicon (Interposer) — xếp chồng HBM kết nối qua các chốt nhô nhỏ với lớp trung gian silicon, rồi lớp này kết nối với chip GPU/CPU trong phạm vi cực ngắn, tạo thành module đóng gói thống nhất. Toàn bộ cấu trúc này được thực hiện qua quy trình đóng gói tiên tiến như CoWoS, tích hợp mật độ cao.
Điểm đột phá cốt lõi của kiến trúc này nằm ở bề rộng của bus. Một bộ xếp chồng HBM thường có bề rộng bus là 1024 bit, còn HBM3E có thể mở rộng tới 2048 bit. Ví dụ, HBM3E sản xuất hàng loạt mới nhất của SK Hynix đã đạt dung lượng 24GB, băng thông vượt 1TB/s. Trong khi đó, các giải pháp GDDR truyền thống chỉ có bề rộng 32 bit (một chip) hoặc 384 bit (kết hợp nhiều chip), khả năng truyền dữ liệu chênh lệch rõ rệt về quy mô.
Thiết kế nền tảng của HBM là “rộng mà chậm” — đổi lấy tổng băng thông lớn bằng cách có nhiều kênh song song, mỗi kênh chạy ở tần số thấp hơn, giúp hiệu quả năng lượng vượt trội so với các giải pháp tần số cao. Trong khi đó, GDDR theo triết lý “hẹp mà nhanh” — dựa vào tần số hoạt động cao hơn để ép băng thông từ ít kênh hơn. Hai triết lý này phù hợp với các kịch bản ứng dụng khác nhau: HBM hướng tới tối đa hóa thông lượng, còn GDDR cân bằng giữa thông lượng và chi phí.
HBM vs GDDR6: cuộc đối đầu “rộng mà chậm” và “hẹp mà nhanh”
HBM và GDDR6 đều thuộc dòng bộ nhớ DRAM, đều nhằm cung cấp kênh truy cập dữ liệu cho GPU, nhưng mục tiêu thiết kế, đặc tính hiệu năng và cấu trúc chi phí của chúng khác nhau về bản chất.
Băng thông: HBM3E một bộ xếp chồng có thể đạt tới 1,2TB/s, thế hệ tiếp theo HBM4 dự kiến vượt 2,0TB/s. Trong khi đó, băng thông tối đa của GDDR6X trên card đồ họa là khoảng 1TB/s, đã gần đạt giới hạn vật lý. Nhưng xét về hiệu quả năng lượng trên mỗi đơn vị băng thông, HBM rõ ràng vượt trội, trong các trung tâm dữ liệu AI, sự khác biệt này chuyển thành lợi thế rõ ràng về chi phí vận hành.
Tiêu thụ năng lượng và độ trễ: Do đường dẫn TSV cực ngắn, năng lượng tiêu thụ của HBM giảm khoảng 30% so với GDDR5. Về độ trễ, GDDR dựa vào đường truyền PCB và giao tiếp với GPU, thường ở mức micro giây; còn HBM đóng gói trực tiếp gần chip GPU, độ trễ rút ngắn xuống nanosecond. Đáng chú ý, trong các kịch bản tối đa hóa thông lượng, độ trễ truy cập ngẫu nhiên của HBM cao hơn GDDR, nhưng đối với các truy cập theo luồng lớn, như trong huấn luyện và suy luận AI, băng thông mới là yếu tố quyết định.
Chi phí: Đây là điểm yếu rõ rệt của HBM. Theo dữ liệu ngành, 1GB HBM có giá hơn 25 USD, trong khi GDDR6 chỉ khoảng 5-8 USD. Trong các GPU cao cấp, tỷ lệ chi phí HBM chiếm tới 60%-80% tổng chi phí. Trong khi đó, hiệu suất băng thông của GDDR6 trên mỗi đồng chi phí thực tế vượt trội hơn HBM — khi yêu cầu về băng thông tối đa không quá cao, GDDR6 có lợi thế rõ ràng về mặt chi phí hiệu năng.
Tổng thể, việc lựa chọn giữa HBM và GDDR phản ánh một sự cân bằng giữa giới hạn hiệu năng và chi phí. HBM phù hợp với các kịch bản “phải đạt ngưỡng băng thông nhất định mới chạy được” — như suy luận các mô hình lớn hàng nghìn tỷ tham số, nếu thấp hơn ngưỡng đó, hệ thống sẽ không hoạt động hiệu quả. GDDR6 phù hợp với các kịch bản “tìm kiếm hiệu năng chấp nhận được với chi phí thấp nhất” — như triển khai các mô hình trung bình nhỏ từ 7B đến 13B tham số.
Chúng không thay thế lẫn nhau, mà là các giải pháp phân tầng phù hợp với các nhu cầu khác nhau. Nhưng trong các kịch bản huấn luyện AI và suy luận quy mô lớn, lợi thế của HBM đang dần đẩy GDDR ra khỏi sân chơi cốt lõi.
“Vách ngăn bộ nhớ”: Tại sao càng lớn mô hình AI, nhu cầu HBM càng tăng theo cấp số nhân
Để hiểu rõ sự bùng nổ nhu cầu HBM, cần quay lại một giới hạn cốt lõi của tính toán AI — “Vách ngăn bộ nhớ” (Memory Wall).
Tốc độ tăng của sức mạnh tính toán và băng thông: Trong 30 năm qua, tốc độ tăng của sức mạnh xử lý theo quy luật của Moore, mỗi 18-24 tháng gấp đôi; nhưng tốc độ nâng cấp băng thông bộ nhớ lại chậm hơn nhiều. Nghiên cứu về AI và vách ngăn bộ nhớ cho thấy, mỗi hai năm, sức mạnh tính toán của AI tăng khoảng 3 lần, còn băng thông bộ nhớ chỉ tăng khoảng 1.6 lần, và băng thông mạng liên kết còn thấp hơn nữa. Điều này có nghĩa là mỗi lần nâng cấp sức mạnh tính toán, khả năng vận chuyển dữ liệu của bộ nhớ lại “tụt hậu”.
Điều này đặc biệt rõ rệt trong giai đoạn suy luận. Trong huấn luyện, chủ yếu dựa vào phép nhân ma trận (GEMM), mật độ tính toán cao, cường độ tính toán có thể đạt trên 100 FLOPs/byte; còn trong suy luận, chủ yếu là phép nhân ma trận vector (GEMV), cường độ tính toán thường dưới 2 FLOPs/byte. Càng thấp, giới hạn hiệu năng của hệ thống càng phụ thuộc vào băng thông bộ nhớ chứ không phải khả năng tính toán — chính là hiệu ứng “vách ngăn băng thông”.
Gánh nặng vận chuyển của các mô hình lớn: Quy trình suy luận của các mô hình lớn có thể tóm tắt như sau: mỗi khi sinh ra một token, toàn bộ tham số của mô hình phải được tải từ bộ nhớ vào trung tâm tính toán. Ví dụ, mô hình Llama 3 70B có trọng số khoảng 140GB ở độ chính xác FP16. Mỗi lần sinh ra một token, toàn bộ 140GB này phải được vận chuyển. Để duy trì tốc độ sinh 30 token mỗi giây, băng thông giữa HBM và trung tâm tính toán cần hỗ trợ khoảng 4.2TB/s.
Yêu cầu này đã gần như vượt quá giới hạn của phần cứng hiện tại. Ví dụ, NVIDIA H100 SXM5 có băng thông HBM là 3.35TB/s. Nghĩa là, ngay cả các card AI cao cấp nhất, khi đối mặt với mô hình 70B tham số, cũng đang ở trạng thái “gần đủ dùng”. Khi quy mô tham số của mô hình tiến tới hàng trăm tỷ, nghìn tỷ, nhu cầu băng thông sẽ tăng theo cấp số nhân hoặc vượt quá.
Hai giới hạn về dung lượng và băng thông: Dung lượng bộ nhớ là một chiều quan trọng khác. Nếu tổng tham số của mô hình vượt quá dung lượng HBM của một GPU, phải chia nhỏ mô hình ra nhiều GPU để chạy song song — gọi là phân tách tensor. Nhưng cách này gây ra chi phí truyền thông mới: các GPU cần truyền kết quả trung gian liên tục, cuối cùng có thể làm giảm hiệu quả tổng thể.
Vì vậy, giá trị của HBM nằm ở hai cấp độ: băng thông quyết định tốc độ sinh ra từ khóa và độ trễ tối thiểu của suy luận, còn dung lượng quyết định xem mô hình có thể nhét vào một GPU hay không, cần bao nhiêu GPU, và chi phí truyền dữ liệu liên GPU là bao nhiêu.
Hiện tại, xu hướng ngành đã rõ ràng: HBM đang từ “tùy chọn cao cấp” trở thành “thiết bị tiêu chuẩn” của sức mạnh tính toán AI. Theo dữ liệu của TrendForce, nhu cầu HBM dự kiến tăng hơn 130% vào năm 2025, và tiếp tục tăng hơn 70% vào năm 2026 dựa trên cơ sở đã cao. Từ một thành phần phụ trong xử lý đồ họa, HBM đã trở thành thành phần trung tâm không thể thiếu trong chuỗi cung ứng sức mạnh AI.
Chuỗi cung ứng toàn ngành: Từ lựa chọn công nghệ đến mất cân đối cung cầu thị trường nghìn tỷ
Quy mô thị trường tăng vọt
Tốc độ mở rộng của thị trường HBM vượt xa dự đoán ban đầu của nhiều tổ chức. Theo dữ liệu của SEMI Trung Quốc, dự kiến đến 2026, quy mô thị trường HBM sẽ tăng 58% lên 54,6 tỷ USD, chiếm gần 40% toàn bộ thị trường DRAM. Micron dự báo, quy mô thị trường tiềm năng (TAM) của HBM sẽ có CAGR khoảng 40%, từ khoảng 35 tỷ USD năm 2025 lên 100 tỷ USD năm 2028 — con số này đã vượt qua quy mô toàn bộ thị trường DRAM năm 2024.
Hạn chế về cung ứng
Nhưng sự bùng nổ nhu cầu đi kèm với khả năng cung cấp cố định của năng lực sản xuất tạo ra mâu thuẫn rõ rệt. Theo dữ liệu của SEMI, dù Samsung, SK Hynix, Micron đã chuyển 70% công suất mới hoặc có thể điều chỉnh sang sản xuất HBM, tổng cung HBM vẫn còn thiếu hụt khoảng 50%-60%.
Nguyên nhân của giới hạn này nằm ở rào cản cao trong sản xuất HBM. Quá trình sản xuất HBM đòi hỏi công nghệ chế tạo DRAM tiên tiến (hiện các nhà sản xuất hàng đầu đã tiến tới 1β nm), cùng với các công nghệ đóng gói tiên tiến như khắc TSV, ghép nối micro bump, đóng gói wafer-level. Trong đó, công suất đóng gói CoWoS của TSMC, trung tâm của HBM và GPU tích hợp, dự kiến cuối 2026 sẽ mở rộng lên hơn 125,000 tấm mỗi tháng, tăng khoảng 79%, nhưng vẫn chưa thể đáp ứng hoàn toàn các đơn hàng của NVIDIA, AMD, Broadcom.
Rủi ro chuỗi cung ứng và truyền giá
Thiếu hụt năng lực sản xuất thể hiện rõ qua giá cả. Giá của HBM3E trong năm 2025 đã tăng 5%-10%. Thêm vào đó, khi các nhà sản xuất lớn chuyển hướng lớn sang HBM, nguồn cung DDR tiêu dùng giảm rõ rệt, dự kiến giá sẽ tiếp tục tăng đến cuối 2026. Nguồn cung thiếu hụt của HBM đang gây ảnh hưởng đến toàn bộ chuỗi cung ứng bộ nhớ rộng hơn qua việc đẩy giá.
Vào tháng 6 năm 2026, Jensen Huang xác nhận rằng SK Hynix, Samsung và Micron đã được chứng nhận và bắt đầu cung cấp hàng loạt chip HBM4, Samsung đã khởi động sản xuất hàng loạt HBM4 từ tháng 2 năm 2026. Nhưng ngay cả khi ba ông lớn mở rộng sản xuất đồng bộ, khoảng cách cung cầu HBM trong 2025-2026 vẫn còn khoảng 50%. Cân bằng cung cầu trong ngắn hạn vẫn còn khó đạt được. Tốc độ mở rộng của nhà cung cấp, giới hạn đóng gói, và nhu cầu tăng trưởng nhanh của AI tạo thành một bức tranh cung cầu luôn căng thẳng nhưng liên tục.
Kết luận
Từ đổi mới nguyên lý kỹ thuật nền tảng, đến sự phụ thuộc cứng nhắc của các kịch bản tính toán AI, rồi đến mất cân đối cung cầu toàn ngành, HBM đã từ một nhánh trong tiến trình phát triển công nghệ bộ nhớ, trở thành điểm chiến lược trung tâm trong cạnh tranh hạ tầng AI.
Sự không thể thay thế của HBM trong huấn luyện và suy luận AI bắt nguồn từ một logic tính toán rất cơ bản: khi quy mô tham số của mô hình vượt qua một ngưỡng nhất định, băng thông không còn là một “tùy chọn tối ưu” nữa, mà trở thành một “điều kiện kích hoạt” — dưới ngưỡng đó, hệ thống không thể vận hành hiệu quả. GDDR6 dù có lợi thế về chi phí, nhưng kiến trúc băng thông hẹp, tần số cao của nó khó có thể phù hợp với mật độ tính toán của các mô hình hàng nghìn tỷ tham số. Sự khác biệt mang tính cấu trúc này quyết định rằng, trong sân chơi cốt lõi của sức mạnh tính toán AI, HBM và GDDR không đơn thuần là cạnh tranh, mà là các giải pháp phân tầng phù hợp với các nhu cầu khác nhau.
Trong tương lai, việc sản xuất hàng loạt HBM4 (băng thông dự kiến vượt 2TB/s trên một bộ xếp chồng), công nghệ xếp chồng 16 lớp, và các công nghệ đóng gói lai sẽ tiếp tục nâng cao giới hạn hiệu năng của HBM. Nhưng cũng cần chú ý rằng, các nhà sản xuất như Huawei đã bắt đầu khám phá các hướng tối ưu hóa thuật toán giảm phụ thuộc vào HBM, như kiến trúc SRAM và tích hợp tính toán bộ nhớ. Liệu HBM có thể duy trì vị thế dẫn đầu trong quá trình đổi mới công nghệ, và khả năng mở rộng cung ứng có thể giải quyết các hạn chế trong chu kỳ mở rộng sản xuất — đó sẽ là các biến số quan trọng nhất của chuỗi ngành AI trong những năm tới.