Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
CFD
Phái sinh CFD cổ phiếu Hoa Kỳ
Cổ phiếu Hoa Kỳ
Tiếp cận cổ phiếu và quỹ ETF thực của Hoa Kỳ
Cổ phiếu Hongkong
Giao dịch cổ phiếu chất lượng được niêm yết tại Hongkong
Cổ phiếu Hàn Quốc
SK Hynix
Giao dịch cổ phiếu Hàn Quốc thực và đầu tư vào các tài sản phổ biến
Futures cổ phiếu
Đòn bẩy cao, giao dịch 24/7
Cổ phiếu token hóa
Được hỗ trợ bởi tài sản cổ phiếu thực
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
GUSD
Đúc GUSD để nhận lợi suất từ RWA kho bạc
Hoạt động cổ phiếu
Giao dịch cổ phiếu phổ biến và nhận airdrop hấp dẫn
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Trung tâm tài sản VIP
Kế hoạch tăng trưởng tài sản cao cấp
Gate Wealth
Nắm quyền kiểm soát tương lai tài chính của bạn
Quỹ định lượng
Chiến lược định lượng hàng đầu
Staking
Stake tiền điện tử để kiếm tiền từ các sản phẩm PoS
Đòn bẩy thông minh
Đòn bẩy không thanh lý
USD1 Lãi 8%/năm
Không khóa, tự do giao dịch.
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
Suy diễn kết cục của chất bán dẫn AI: Khoảng trống còn kéo dài ít nhất năm năm?
Khi chất bán dẫn phát triển theo cấu trúc đến chủ đề chính của suy luận AI, bộ nhớ và lưu trữ trở thành nút thắt cổ chai lớn nhất, và nghi ngờ lớn nhất của thị trường về bộ nhớ và lưu trữ là:
Liệu HBM/DRAM/SSD có thoát khỏi chu kỳ truyền thống không?
Liệu lộ trình kiến trúc GPU phụ thuộc vào sự tăng trưởng theo cấp số nhân của HBM có dừng lại không? Khi nào thì dừng?
Tác động của việc mở rộng sản xuất của ChangXin (长鑫) lớn đến mức nào? Liệu nó có đưa thị trường này trở lại vũng lầy chu kỳ không?
Bài viết này cố gắng xây dựng một khuôn khổ để giải quyết những vấn đề này
Vạn vật đều có chu kỳ, và tính chu kỳ của bộ nhớ đặc biệt mạnh, nguồn gốc lớn nhất nằm ở chu kỳ mở rộng sản xuất quá dài, không thể mở rộng nhanh chóng và sự không phù hợp trong giai đoạn thiếu hụt nhu cầu
Một số cách có thể thoát khỏi chu kỳ truyền thống
Tùy chỉnh: Sản phẩm không thể hoán đổi, năng lực sản xuất không thể chuyển giao tùy tiện, cần ký hợp đồng dài hạn.
Tăng trưởng nhu cầu theo cấp số nhân mang tính cấu trúc: Đường cầu tự nó rất dốc, và nguồn cung luôn không theo kịp.
Cập nhật công nghệ nhanh chóng: Mỗi thế hệ sản phẩm nhanh chóng loại bỏ thế hệ trước.
Đáp ứng bất kỳ một điều kiện nào, có thể phần nào thoát khỏi chu kỳ truyền thống; đáp ứng hai đến ba điều kiện, có thể thoát khỏi phần lớn chu kỳ truyền thống
Theo khuôn khổ này, HBM trong ba điều kiện, khoảng chiếm hai rưỡi
HBM thực sự có yếu tố tùy chỉnh và đồng thiết kế với Nvidia, nhưng không mạnh lắm. Phần thực sự tùy chỉnh chỉ nằm ở bao bì và base die, khoảng chục lớp DRAM die bên trên vẫn hoàn toàn tiêu chuẩn JEDEC.
Ví dụ, khi HBM3E của Samsung không vượt qua được quá trình qualification của NVIDIA, thị phần giảm từ khoảng 60% xuống còn 20%, họ không ôm lô năng lực sản xuất này để phế bỏ, mà chuyển ngay cho TPU của Google và AMD. Về mặt vật lý, HBM3E cung cấp cho NVIDIA và HBM3E cung cấp cho AMD là cùng một thứ. Vì vậy, năng lực sản xuất vẫn có thể chuyển giao một phần tự do.
Sau HBM4, việc tùy chỉnh nhiều hơn, bao gồm tích hợp logic tùy chỉnh và/hoặc bộ nhớ đệm trên base die. Cách phức tạp hơn là đặt trực tiếp bộ điều khiển bộ nhớ HBM4E và giao diện die-to-die tùy chỉnh vào base die logic
SemiAnalysis đề cập rằng OpenAI, NVIDIA và AMD đều đang làm việc về HBM tùy chỉnh, nhưng điều này đề cập đến việc tùy chỉnh base die, các lớp DRAM bên trên vẫn là tiêu chuẩn.
Đặc tính tùy chỉnh một phần, HBM chủ yếu yêu cầu hợp tác về bao bì, điều này cũng khiến khách hàng phải ký hợp đồng dài hạn, nhưng năng lực sản xuất thực sự có thể chuyển giao, vì vậy HBM có thể tính là nửa điều kiện.
Lý do trực quan nhất là nhu cầu nâng cấp phần cứng token throughput của Nvidia token factory, dẫn đến tốc độ nâng cấp băng thông HBM rất nhanh và nhu cầu về kích thước HBM tăng theo cấp số nhân
Điều này thực chất là kết luận của bài viết trước Diễn biến cuối cùng của AI bán dẫn 2026 (I):
token throughput = kích thước HBM × băng thông HBM, mỗi thế hệ tăng gấp đôi.
Kích thước HBM trên mỗi GPU tăng khoảng hơn 40% mỗi năm
Độ dốc của đường cầu này là rất khó để nguồn cung DRAM với mức tăng wafer 14% nhân với mức cải thiện mật độ 9% có thể theo kịp
Trong lĩnh vực phần cứng, do yêu cầu về băng thông cực cao và kích thước bộ nhớ cực cao của KV cache trong giai đoạn attn, điều này cũng dẫn đến vị thế độc đáo của HBM. Ngay cả khi HBM tăng giá ba đến năm lần, việc chi tiền cho HBM để cải thiện token throughput biên vẫn có lợi hơn nhiều so với chi tiêu vào nơi khác.
Các lộ trình bộ nhớ khác như SRAM, HBF, CXL, PIM, hiện tại không thể cạnh tranh trực diện trên đường đua chính kv cache/attention của HBM, ít nhất trong 5 năm tới hoặc thậm chí lâu hơn, khó có thể tìm ra lộ trình thay thế
Thời đại DDR3 kéo dài 15 năm, vẫn chỉ là thời đại DDR5, trong khi tốc độ nâng cấp của HBM về cơ bản là hai năm một thế hệ, nhanh hơn nhiều so với DDR truyền thống, và gần đây còn có xu hướng tăng tốc. Kích thước HBM x Băng thông HBM tăng gấp đôi mỗi thế hệ, hiện tại hoàn toàn tuân theo quy luật này
Cứ hai năm một thế hệ nâng cấp HBM, tốc độ GPU của NV về cơ bản tăng theo cấp số nhân: 2TB/s ->3.5TB/s->4.8TB/s ->8TB/s->22TB/s, và tốc độ của HBM hoàn toàn tỷ lệ thuận với token throughput suy luận. Chi phí sử dụng biên của thế hệ HBM trước sẽ không còn kinh tế, mọi người đều có động lực để sử dụng sản phẩm mới nhất càng nhiều càng tốt, mặc dù đắt hơn, nhưng lợi ích mang lại (token throughput) là nhiều hơn
Logic của thời đại Token factory là: càng nâng cấp công nghệ (băng thông HBM), càng kiếm được nhiều tiền
Sự chênh lệch tốc độ này tạo ra một tình huống tương tự như CPU: sản phẩm cũ mất giá nhanh chóng, do đó giá trị của việc tích trữ trở nên thấp hơn. Ví dụ, giá trị của HBM3 mất giá rất nhanh, ngày nay về cơ bản không còn sản phẩm chủ lực sử dụng
Vì vậy, lựa chọn hợp lý của các nhà sản xuất HBM, từ cạnh tranh về năng lực sản xuất hiện tại để chiếm thị trường (cạnh tranh về số lượng), chuyển sang cạnh tranh về độ ổn định và tốc độ HBM, cạnh tranh về thị phần qualification trên nền tảng NVIDIA thế hệ tiếp theo (cạnh tranh về chất lượng), từ đó tránh được thế tiến thoái lưỡng nan của người tù trong chu kỳ đi xuống truyền thống, khi mọi người đều không muốn giảm sản lượng để mất thị phần.
So sánh HBM và DRAM truyền thống, trong ba điều kiện, HBM đáp ứng hai rưỡi, vậy HBM có thể thoát khỏi chu kỳ truyền thống không?
Nguồn gốc của tính chu kỳ bộ nhớ, theo câu chuyện chính thống, là DRAM có thuộc tính hàng hóa (không khác biệt hóa → chiến tranh giá cả → hàng tồn kho có thể tích trữ), do đó có tính chu kỳ.
Bản thân thuộc tính hàng hóa không tạo ra chu kỳ, nó chỉ là một bộ khuếch đại biên độ
Đặc biệt trong lĩnh vực DRAM, từng xuất hiện thế tiến thoái lưỡng nan của người tù. Trong chu kỳ đi xuống, Samsung từng mở rộng sản xuất để giành thị phần, ai giảm sản lượng trước sẽ chịu thiệt, dẫn đến không ai dám giảm sản lượng dễ dàng, cuối cùng tất cả đều thua lỗ thảm hại
Thực tế, nguồn gốc cấu trúc chính của tính chu kỳ là chu kỳ cung cấp quá dài, dễ dàng lệch pha với chu kỳ nhu cầu. Xây dựng một fab mất 3 năm, đầu tư hàng chục tỷ đô la, một khi quyết định là không thể đảo ngược, trong khi tăng trưởng nhu cầu có sự bất ổn định. Mỗi khi xuất hiện sự tăng trưởng theo mô hình mới, như dịch vụ đám mây, điện thoại di động Internet, nhu cầu trực tuyến trong đại dịch, sẽ có sự tăng trưởng bùng nổ, nhưng sau hai năm tăng trưởng sẽ chậm lại, cung vượt cầu, giảm giá quá mạnh, biến thành chu kỳ thua lỗ
Vạn vật đều có chu kỳ, HBM cũng không thể tránh khỏi điều này, nhưng miễn là nhu cầu token vẫn tăng theo cấp số nhân, sự tăng trưởng theo cấp số nhân mang tính cấu trúc sẽ làm suy yếu tính chu kỳ, vì nhu cầu có thể dự đoán tốt hơn, và một khi giảm giá, khách hàng có nhu cầu tăng kích thước HBM (do đó tăng token throughput), cùng với yêu cầu tùy chỉnh một phần của HBM dẫn đến hợp đồng dài hạn, từ đó chuyển từ tính chu kỳ sang tính chu kỳ tăng trưởng, và chu kỳ này sẽ đặc biệt dài
· Tính chu kỳ: Trong chu kỳ tăng, kiếm được nhiều; trong chu kỳ giảm, thua lỗ nhiều.
· Tính chu kỳ tăng trưởng: Trong chu kỳ tăng, kiếm được nhiều; trong chu kỳ giảm, kiếm được ít.
Ngoài ra, dựa trên ba điều kiện thoát khỏi chu kỳ truyền thống, HBM/DRAM còn có một lợi thế quan trọng:
Khoảng năm 2000, mật độ bit DRAM trên mỗi wafer tăng khoảng 45% mỗi năm, có nghĩa là ngay cả khi số lượng wafer không mở rộng, lượng bit DRAM từ phía cung mỗi năm vẫn có thể tăng 45%
Mười năm trước, mức tăng mật độ bit DRAM mỗi năm giảm xuống còn 20%, và hiện tại, mức tăng mật độ bit DRAM mỗi năm giảm xuống còn 9%. Trước đây, mở rộng sản xuất DRAM thậm chí không cần xây dựng nhà máy mới để có được mức tăng khối lượng bit hàng năm 20~30%. Bây giờ, mở rộng sản xuất DRAM chủ yếu dựa vào sự tăng trưởng số lượng wafer, tức là xây dựng nhà máy mới và phòng sạch.
Một khó khăn khác trong việc mở rộng nhanh chóng HBM là HBM3e cần khoảng gấp 3 lần số wafer DRAM, trong khi HBM4 do tăng mật độ xếp chồng, cần khoảng gấp 4 lần số wafer DRAM, tương đương với việc bit HBM so với bit DRAM ngày càng khó sản xuất hơn, số lượng bit HBM được sản xuất từ một lượng wafer DRAM ngày càng ít, tương đương với giảm phát
Một ngày nào đó trong tương lai, liệu HBM có chuyển từ tính chu kỳ tăng trưởng trở lại tính chu kỳ truyền thống không? Yếu tố quan trọng nhất là sự tăng trưởng theo cấp số nhân mang tính cấu trúc, vậy
Trong thời đại suy luận AI, liệu lộ trình kiến trúc GPU phụ thuộc vào sự tăng trưởng theo cấp số nhân của HBM có dừng lại không? Khi nào thì dừng?
token throughput = kích thước HBM × băng thông HBM, lý do tăng kích thước HBM trong nguyên lý đầu tiên của sự tăng trưởng theo cấp số nhân này chính là do sự tăng trưởng của KV cache. Đặc điểm của KVCache và Attention cũng rất phù hợp với HBM. Thậm chí còn làm cho HBM dẫn trước các lộ trình công nghệ khác, có thể tối đa hóa việc sử dụng KVCache và giai đoạn Attention.
Nói cách khác, nếu KV cache không còn tồn tại về mặt kiến trúc, thì logic tăng trưởng theo cấp số nhân của kích thước HBM cũng sẽ bị thách thức
Vì vậy, bản chất của vấn đề này là liệu cơ chế attention đại diện bởi Transformer và cơ chế KV cache bắt nguồn từ nó có biến mất không? Sau khi thủy triều rút, liệu nó có bị thay thế không?
Nhìn từ quy luật lịch sử: Mỗi cuộc cách mạng kiến trúc mô hình AI, những thứ thực sự được giữ lại là những thao tác nguyên thủy (primitive) có tính phổ quát toán học
Ví dụ: FFN (mạng truyền thẳng, tức là lớp MLP lớn trong mô hình) là sản phẩm của thời đại học sâu năm 2012, nhưng nó đã sống sót đến ngày nay trong các mô hình ngôn ngữ lớn và vẫn chiếm một lượng tham số đáng kể của mô hình. Tại sao nó có thể sống sót? Vì đó cũng là một định lý xấp xỉ phổ quát (universal approximation theorem): Bất kỳ MLP đủ rộng nào cũng có thể xấp xỉ bất kỳ hàm liên tục nào
Attention cũng có khả năng là một nguyên thủy như vậy sẽ được giữ lại. Vì nó giải quyết một vấn đề cơ bản tương tự: định tuyến động (dynamic routing) giữa bất kỳ hai vị trí nào trong một chuỗi sequence, cho phép bất kỳ hai vị trí nào trong một chuỗi thiết lập kết nối theo nhu cầu. Một khi khả năng này được chứng minh là hiệu quả, rất khó để bỏ nó đi
Vì vậy, ngay cả khi kiến trúc tương lai chuyển từ Transformer thuần túy sang kiến trúc lai hoặc sang mô hình thế giới, lớp attention vẫn sẽ tồn tại, KV cache (hoặc tương đương sau khi nén tiềm ẩn) vẫn cần thiết, HBM vẫn sẽ là một trong những cốt lõi của suy luận, lộ trình kiến trúc GPU KV cache phụ thuộc vào sự tăng trưởng theo cấp số nhân của HBM này sẽ không dừng lại
Vậy DRAM thì sao? Có khả năng thoát khỏi chu kỳ truyền thống trong tương lai không?
HBM thoát khỏi chu kỳ có một số đồng thuận trên thị trường, nhưng DRAM thoát khỏi chu kỳ, hiện tại thị trường về cơ bản không có đồng thuận
Quay lại khuôn khổ vừa nãy, trong ba điều kiện thoát khỏi chu kỳ truyền thống, DRAM không có tùy chỉnh, vì vậy chỉ có thể xem xét tốc độ cập nhật công nghệ, quan trọng nhất là xem có sự tăng trưởng theo cấp số nhân mang tính cấu trúc hay không, câu trả lời là có
Trong khái niệm token factory AI, sự tăng trưởng theo cấp số nhân mang tính cấu trúc thực sự chủ yếu là HBM. Nhưng mọi thứ đã thay đổi sau cuối năm 2025: khi agentic CPU bắt đầu phát huy tiềm năng, nhu cầu DRAM đi kèm với CPU đang trở thành nguồn tăng trưởng theo cấp số nhân mang tính cấu trúc mới cho DRAM
Logic tăng trưởng của phần này được chia thành hai lớp: Lớp thứ nhất là sự tăng trưởng nhanh chóng của TAM máy chủ CPU, lớp thứ hai là lượng DRAM trang bị cho mỗi lõi CPU máy chủ tăng nhanh do agentic flow
4 logic của sự tăng trưởng nhanh chóng của TAM CPU máy chủ đã được viết chi tiết trong bài chuyên đề CPU tháng 4, nói một cách đơn giản:
Tỷ lệ CPU và GPU trong cụm tăng tốc AI thay đổi từ 1:4 truyền thống thành 1:2, và thậm chí có thể tiến tới 1:1
Trong agentic flow, độ trễ do CPU xử lý chiếm tỷ lệ rất cao, 50~90%, trở thành nút thắt cổ chai quan trọng, cần mở rộng quy mô đồng bộ
AI coding làm tăng đáng kể hiệu quả của SDE, số lượng mã tăng theo cấp số nhân, số lượng cuộc gọi API phần mềm tăng theo cấp số nhân, trực tiếp chuyển đổi thành sự tăng theo cấp số nhân của số giờ CPU này
Sandbox để đảm bảo an toàn và cách ly dữ liệu, chẳng hạn như Analytical Agent cần sao chép một lượng lớn cơ sở dữ liệu và ngữ cảnh người dùng cho mỗi tác vụ, dẫn đến lãng phí nghiêm trọng bộ nhớ (DRAM) và lõi CPU, và vấn đề lãng phí này không thể giải quyết trong năm năm hoặc thậm chí lâu hơn. Ngoài ra, số giờ CPU về mặt kỹ thuật rất khó giảm phát thông qua các phương pháp tối ưu hóa
Đây cũng là lý do tại sao, trong quý trước, báo cáo tài chính của AMD cho biết TAM CPU sẽ đạt 60B vào năm 2030, hai tháng trước, AMD/ARM đã tăng gấp đôi dự báo TAM CPU năm 2030 lên 120B, một tháng trước, Nvidia một lần nữa tăng gấp đôi dự báo TAM CPU năm 2030 lên 200B
Và tuần trước, Bernstein một lần nữa nâng hướng dẫn TAM CPU 2030 lên 223B. Theo tôi, việc TAM CPU 2031 được nâng lên 400B trong tương lai là điều không có gì ngạc nhiên, điều duy nhất còn nghi ngờ là khi nào một số gã khổng lồ sẽ công bố nâng hướng dẫn này
Lớp thứ hai, tại sao lượng DRAM trang bị cho mỗi lõi CPU máy chủ lại tăng nhanh trong thời đại agentic?
Web/SaaS truyền thống là stateless: request đến, cấp phát bộ nhớ, xử lý xong thu hồi bộ nhớ ngay lập tức. Trong khi một tác vụ Agent có thể chạy từ một phút đến một giờ, trong suốt khoảng thời gian này, message history, system prompt, working memory, long-term memory, tool result buffer của nó đều thường trú trong DRAM
Giống như giờ CPU, dấu chân bộ nhớ của mỗi tác vụ do yêu cầu stateful và cách ly sandbox (mỗi tác vụ sao chép cơ sở dữ liệu và ngữ cảnh) rất khó nén về mặt kỹ thuật
context window từ 32K → 256K → 1M, độ dài chuỗi của reasoning / test-time compute bùng nổ, sẽ tiếp tục tăng trong tương lai. Các messages thường trú của mỗi phiên hoạt động tăng tuyến tính theo độ dài context
Bây giờ nhân hai lớp lại với nhau.
Lớp thứ nhất, TAM của máy chủ CPU, nhìn về 2030~2031 khoảng 5–7 lần (60B → 120B → 200B → 223B, tôi nghĩ sẽ còn lên 400B)
Lớp thứ hai, tỷ lệ DRAM trên mỗi CPU, khoảng 3–4 lần (4~8GB → 16~32 GB/core), nhưng sự tăng trưởng này có thể phần lớn là cổ tức một lần
Hai biến độc lập nhân với nhau, nhu cầu DRAM phía máy chủ là sự tăng trưởng theo cấp số nhân
Năm 2030, ngay cả với TAM CPU bảo thủ 300B, một core CPU tính $50, thời đại agent bảo thủ nhất tính 16GB/core, điều này tính ra mức tăng mới ít nhất là 96EB, trong khi tổng sản lượng DRAM năm nay chỉ là 47EB, năm sau cố gắng lắm mới được 60EB, đây là một mức tăng đáng kinh ngạc
Mặc dù sự tăng trưởng theo cấp số nhân của DRAM do agentic CPU mang lại, ở lớp thứ hai phần lớn là cổ tức một lần, nhưng thời gian kéo dài sẽ rất lâu, vì khoảng cách thiếu hụt quá lớn
Quay lại khuôn khổ đầu bài viết. Trong ba điều kiện thoát khỏi chu kỳ truyền thống, điều kiện đầu tiên là tùy chỉnh DRAM, về cơ bản có thể bỏ qua
Còn điều kiện thứ hai: một nguồn nhu cầu mang tính cấu trúc, theo cấp số nhân và rất khó đảo ngược là có. Commodity DRAM bây giờ cũng có tư cách để phần nào thoát khỏi tính chu kỳ truyền thống. Không triệt để như HBM (hai rưỡi), nhưng đã là một thay đổi thực chất
Điều kiện thứ ba, tốc độ cập nhật công nghệ, nhịp điệu của DRAM cũng không giống trước đây
Vì tốc độ cập nhật công nghệ DRAM trước đây phụ thuộc nhiều vào điện tử tiêu dùng, sự tiến bộ của DDR không hữu ích lắm cho hiệu suất, nhưng trong tương lai có thể thấy trước, DRAM truyền thống dựa trên carbon (tiêu dùng) sẽ ít hơn nhiều so với DRAM dựa trên silicon (máy chủ CPU)
Trước đây, lợi ích biên của việc nâng cấp tốc độ DRAM rất thấp, nhưng bây giờ do nhu cầu về bộ nhớ của máy chủ CPU tăng lên, và nhu cầu về tốc độ DDR của AI thiết bị đầu cuối cũng tăng lên, ví dụ Apple để chạy mô hình lớn cục bộ, tốc độ LPDDR ngày càng nhanh
Lợi ích biên của việc nâng cấp tốc độ đã tăng lên đáng kể, vì vậy nhu cầu cập nhật tốc độ của DDR6 và LPDDR6 đã tăng lên rất nhiều so với trước đây, điều này cũng có thể thấy trong biểu đồ, thời gian cập nhật của LPDDR6/DDR6 đã rút ngắn, và độ dốc tốc độ bắt đầu tăng trở lại
Trước đây, khi công nghệ DDR/LPDDR thế hệ mới ra mắt, phản ứng của mọi người đều rất lạnh nhạt, chỉ sử dụng khi giảm giá
Còn bây giờ LPDDR6 ra mắt, các nhà sản xuất đều tranh nhau sử dụng càng sớm càng tốt, vì sự cải thiện tốc độ mang lại sự cải thiện hiệu suất rõ rệt
Ngoài ra, nguồn cung DDR còn bị HBM đánh thêm một loại thuế. Tốc độ mở rộng sản xuất hàng năm của HBM quá nhanh, dẫn đến mỗi năm một lượng wafer có thể làm commodity DDR bị kéo sang làm HBM, và tỷ lệ chuyển đổi của HBM rất thấp, HBM3E cần khoảng 3 wafer DDR để sản xuất ra lượng bit tương đương, HBM4 là 4 wafer. Vì vậy, mỗi năm khoảng 3% đến 5% tăng trưởng bit DDR bị loại thuế bit HBM này ăn mất trực tiếp
Vì vậy, mặc dù khối lượng bit DRAM trong tương lai có thể tăng khoảng 24% mỗi năm (14% từ tăng wafer, 9% từ tăng mật độ DRAM trên mỗi wafer), nhưng sau khi tính thuế bit HBM, commodity DDR truyền thống, không phải HBM, mỗi năm chỉ tăng khoảng 20% (khoảng 10% tăng wafer × khoảng 9% cải thiện mật độ node)
Tác động của việc mở rộng sản xuất của ChangXin (长鑫) Trung Quốc lớn đến mức nào? Nếu không tuân thủ võ đức mà mở rộng sản xuất điên cuồng, liệu có đưa thị trường này trở lại vũng lầy chu kỳ không?
Tốc độ mở rộng sản xuất của ChangXin trong những năm gần đây vẫn rất nhanh, năm 2025 vẫn là 200.000 wafer mỗi tháng, đến năm 2026, nhà máy wafer Bắc Kinh và các dây chuyền sản xuất mới sẽ đạt 320.000~350.000.
Nhà máy Thượng Hải đang xây dựng giai đoạn một và hai, giai đoạn một dự kiến đến năm 2027 sẽ thêm 100.000 wafer mỗi tháng, giai đoạn hai dự kiến đến năm 2028 sẽ thêm 100.000 wafer mỗi tháng, tức là năm 2027 mỗi tháng 420.000 wafer, năm 2028 có thể đạt 500.000 wafer mỗi tháng.
Nhưng cần lưu ý, mật độ bit dram của ChangXin chỉ bằng khoảng một nửa so với ba nhà sản xuất lớn (Samsung, SK Hynix, Micron), vì vậy 500.000 wafer mỗi tháng của ChangXin chỉ sản xuất được một nửa khối lượng bit dram so với các nhà khác, khi tính wafer per month, tính theo một nửa tương đương
Sau khi áp dụng chiết khấu này, tác động của ChangXin đối với toàn bộ ngành DRAM vẫn giảm đi nhiều, từ cuối năm 2025 đến cuối năm 2028, tác động của ChangXin đối với CAGR năng lực sản xuất bit DRAM chỉ khoảng 1.5%, CAGR năng lực sản xuất DRAM toàn ngành tăng từ khoảng 12.7% lên 14.2%
· Năng lực sản xuất hàng tháng DRAM (kwspm) CAGR 2025E → 2028E
· Samsung 685K → 920K 10.3%
· SK Hynix 519K → 725K 11.8%
· Micron 340K → 560K 18.1%
· Khác không phải Trung Quốc 150K → 218K 13.3%
· Trung Quốc (mật độ giảm một nửa) 117K → 274K 32.8%
· Tổng bao gồm Trung Quốc 1811K → 2697K 14.2%
· Tổng không bao gồm Trung Quốc 1694K → 2423K 12.7%
Ngay cả khi ChangXin trong tương lai vẫn giữ được tốc độ tăng sản xuất, tác động đến CAGR tăng sản lượng bit DRAM hàng năm của toàn ngành vào năm 2030 cũng chỉ khoảng dưới 3%, từ 20% CAGR thành 23% CAGR, chỉ có vậy
Ngoài ra, ChangXin bị giới hạn bởi máy quang khắc, trong khi DDR6 yêu cầu tốc độ cao hơn (bắt đầu từ 14400 MT/s) và mật độ cao hơn, ba nhà sản xuất lớn có thể sẽ sử dụng node 1c hoặc node tiên tiến hơn (~12nm trở xuống) cho DDR6, và đã sử dụng hoàn toàn EUV. ChangXin có thể bị giới hạn tốc độ trên DDR6, và mật độ chỉ bằng một nửa.
Ngay cả với chu kỳ tăng trưởng, tại sao chu kỳ siêu tăng trưởng này của DRAM sẽ kéo dài trong thời gian dài, ít nhất năm năm không thấy điểm cuối?
Lý do đầu tiên là sự tăng trưởng theo cấp số nhân mang tính cấu trúc của nhu cầu DRAM do sự gia tăng khổng lồ từ phía nhu cầu máy chủ CPU vừa được thảo luận. Kết hợp với CAGR khối lượng bit từ phía cung DRAM ổn định khoảng 20%, có thể thấy rõ ràng tại sao khoảng cách thiếu hụt DRAM trong những năm tới ngày càng lớn:
Nguồn cung DRAM truyền thống không phải HBM tăng khoảng 20% mỗi năm, trong khi nhu cầu, tính theo TAM CPU 60B năm 2026, mỗi CPU tiêu thụ trung bình 8GB/core DRAM, mỗi core $30~35, nhu cầu là 16EB
Đến năm 2030, theo TAM CPU 400B, mỗi CPU tiêu thụ trung bình 16GB/core DRAM, mỗi core $80 (CPU tăng giá hơn gấp đôi), nhu cầu là 80EB, phần tăng trưởng DRAM này CAGR khoảng 50%, vượt xa ước tính hiện tại
Khác với HBM liên quan trực tiếp đến token throughput và do đó liên quan trực tiếp đến hiệu quả kiếm tiền của GPU, thiếu DRAM ảnh hưởng chủ yếu đến tốc độ của agent flow. Ví dụ, so với 8GB/core và 16GB/core, một số workload có thể giảm tốc độ 30%, một số tác vụ giá trị thấp có thể chờ được, động lực tăng trưởng theo cấp số nhân rất mạnh, nhưng nhu cầu không cứng nhắc như GPU
Semianalysis cho biết khoảng cách thiếu hụt DRAM năm nay là đơn vị phần trăm, năm sau là hơn 10%. Nhìn từ cấu trúc DRAM do sự gia tăng số lượng agent CPU, khoảng cách này sẽ tiếp tục tăng lên hàng năm, không thấy khả năng giảm trước năm 2030
Một lý do khác khiến DRAM có thể duy trì sức mạnh trong thời gian dài là sau khi DRAM tăng giá, phần nhu cầu bị tiêu diệt bởi việc tăng giá không thực sự biến mất, chỉ bị trì hoãn, hồ chứa nhu cầu quá lớn.
Cái gọi là hồ chứa là những nhu cầu tiềm năng mà "một khi bộ nhớ giảm giá sẽ được giải phóng ngay lập tức". Sự tồn tại của chúng có nghĩa là ngay cả khi nguồn cung tạm thời theo kịp, giá cũng khó sụp đổ, vì luôn có nhu cầu mới từ hồ chứa trào ra để tiếp nhận:
Bộ nhớ quy đổi thành sức mạnh tính toán/tốc độ là một hồ chứa:
Có rất nhiều nhu cầu mà lẽ ra cần thêm bộ nhớ để tối ưu hóa tốc độ và sức mạnh tính toán, nhưng bị kìm hãm khi bộ nhớ quá đắt, và sẽ được giải phóng một khi bộ nhớ giảm giá.
Ví dụ, CPX prefill accelerator của Nvidia, thiết kế ban đầu là sử dụng GDDR7 giá rẻ bổ sung để làm một bộ tăng tốc prefill chuyên dụng, nhưng LPDDR/GDDR quá đắt, thậm chí còn đắt hơn HBM trước khi tăng giá, ROI của giải pháp này không còn kinh tế. Nhưng khi bộ nhớ thông thường giảm giá, các giải pháp tối ưu hóa tương tự CPX sẽ quay trở lại
Các tác vụ giá trị thấp là một hồ chứa: Khi tăng giá bộ nhớ khiến token giá cao, các tác vụ giá trị cao được ưu tiên giữ lại, các tác vụ giá trị thấp bị hoãn lại; khi bộ nhớ giảm giá, những nhu cầu bị trì hoãn này sẽ quay trở lại.
AI thiết bị đầu cuối là một hồ chứa: Cấu hình bộ nhớ của AI PC có thể tăng từ 24GB lên 128GB. Apple đã yêu cầu rõ ràng phiên bản đầy đủ sức mạnh của AI thiết bị đầu cuối mới nhất cần nâng cấp từ 8GB lên 12GB bộ nhớ
Điện tử tiêu dùng thông thường, Agent PC, điện thoại cấp thấp, nhu cầu giảm do tăng giá bộ nhớ, tất cả đều là hồ chứa.
Nhiều hồ chứa xếp chồng lên nhau tạo thành một lớp đệm nhu cầu rất dày. Đó là lý do tại sao sự tăng trưởng cấu trúc của DDR trong vòng này có sức bền mạnh hơn thị trường tưởng tượng.
Còn một lý do nữa khiến giá DRAM khó giảm mạnh là do năng lực sản xuất HBM và DRAM có thể chuyển đổi lẫn nhau, vì vậy toàn bộ tổ hợp DRAM được tái định giá cùng nhau
Trong chu kỳ tăng, tỷ suất lợi nhuận của DRAM vượt xa HBM, mức tăng giá của HBM thậm chí còn bị thúc đẩy bởi DRAM. Giá HBM4 mới ký hợp đồng năm nay là giá DRAM hiện tại x 4, tức là giá tương ứng với số lần xếp chồng thông thường cho HBM4
Một khi DRAM giảm giá và biên lợi nhuận giảm, do tính minh bạch của hợp đồng dài hạn HBM, tỷ suất lợi nhuận đều được đảm bảo, HBM sẽ gián tiếp rút thêm năng lực sản xuất DRAM, việc giảm giá HBM cũng sẽ khuyến khích các nhà sản xuất GPU nâng cấp kích thước HBM nhiều nhất có thể, điều này cũng gián tiếp đảm bảo sàn giá cho DRAM
Nhu cầu tăng trưởng theo cấp số nhân mang tính cấu trúc của DRAM đã có, khó khăn trong việc mở rộng sản xuất do scaling mật độ chậm lại ngày càng tăng, kế hoạch mở rộng sản xuất của các nhà sản xuất rất thận trọng, tác động của ChangXin trong những năm tới cũng hạn chế, cộng với hồ chứa nhu cầu rất lớn, bốn lý do này dẫn đến, trong vòng ít nhất năm năm hoặc thậm chí lâu hơn có thể thấy trước, DRAM rất khó rơi vào đáy chu kỳ.
NAND SSD có hy vọng thoát khỏi chu kỳ truyền thống không?
Động lực tăng trưởng cấu trúc của NAND không mạnh bằng DDR, lý do chính của tình trạng thiếu hụt năm nay là kỷ luật sản xuất của một số người chơi chính được duy trì tốt, không mở rộng sản xuất quy mô lớn, mỗi năm tăng năng lực sản xuất chủ yếu đến từ cải tiến công nghệ: tăng số lớp xếp chồng NAND
Động lực tăng trưởng cấu trúc đầu tiên đến từ AI, chủ yếu từ việc offloading KV cache, chuyển KV cache warm/cold tràn ra khỏi HBM sang NAND SSD.
Nhưng điều kỳ diệu là sự tăng trưởng của offloading KV cache này thậm chí còn chưa xảy ra trên quy mô lớn, SSD đã thiếu hụt nghiêm trọng hơn DRAM, và tăng giá cũng nhiều hơn DRAM. Đợi đến khi Rubin CMX ra mắt với số lượng lớn vào năm sau, cùng với ứng dụng offloading KV cache trên quy mô lớn, tình trạng thiếu hụt SSD cũng sẽ tăng lên do sự tăng trưởng cấu trúc này
Thứ hai, một động lực tăng trưởng cấu trúc khác được đề cập trong tổng kết cuối năm ngoái là AI video có thể kỳ vọng trong tương lai, năm nay đã có xu hướng phát triển ra bên ngoài
Quy mô của Seedance đang tăng với tốc độ gấp mười đến bốn mươi lần mỗi năm. Hiện tại nó vẫn bị kẹt trong giai đoạn thiếu card tính toán, nhu cầu bị kìm hãm bởi sức mạnh tính toán chưa được giải phóng hoàn toàn. Nhưng khi giai đoạn thiếu card qua đi, sự tăng trưởng nhu cầu cấu trúc của AI video đối với lưu trữ NAND sẽ kéo dài trong một thời gian khá lâu.
Động lực tăng trưởng cấu trúc thứ ba cũng đến từ sự gia tăng theo cấp số nhân của việc sử dụng Sandbox do agent flow mang lại. Để đảm bảo an toàn và cách ly dữ liệu, chẳng hạn như Analytical Agent cần sao chép một lượng lớn cơ sở dữ liệu và ngữ cảnh người dùng cho mỗi tác vụ, dẫn đến lãng phí nghiêm trọng bộ nhớ (DRAM) và lõi CPU, đồng thời cũng sẽ dẫn đến một lượng lớn lãng phí (nhu cầu) SSD
Động lực tăng trưởng cấu trúc thứ tư, có thể phát huy tác dụng sau năm 2030, đến từ lộ trình HBF cần sử dụng SSD, được nhiều phân tích ngân hàng đầu tư kỳ vọng, nhưng lộ trình công nghệ này còn hơi xa, vai trò chính chỉ có thể là lưu trữ weights của mô hình lớn, viết weights một lần rồi chỉ đọc, và phải được đóng gói cùng với GPU/HBM (48TBps/96TBps), nếu không thì tốc độ PCIE7/8 quá chậm không thể sử dụng. Có thể kỳ vọng trong tương lai, bài viết tiếp theo Diễn biến cuối cùng của AI bán dẫn 2026 (III) sẽ có phân tích chi tiết hơn
Tóm lại, sự tăng trưởng cấu trúc của NAND SSD không mạnh bằng HBM, nhưng lợi thế ở chỗ rẻ, giá đến năm 2027 chỉ $0.8/GB, bằng 1/40 so với DRAM cùng kỳ, vì vậy nó cũng là một thuộc tính linh hoạt trong bộ nhớ đệm đa cấp, nguồn tăng trưởng cấu trúc quá rộng
Nói cách khác, không tồn tại tình huống DRAM/HBM tăng giá một mình thịnh vượng trong khi SSD không tăng giá, bởi vì nếu tình huống như vậy xảy ra, mọi người sẽ tìm cách sử dụng SSD để đảm nhận một phần chức năng của DRAM/HBM, đạt được hiệu quả tương tự với chi phí thấp hơn. HBM, DRAM, NAND không phải là ba câu chuyện độc lập, mà là sự tăng trưởng cấu trúc của cùng một hệ thống phân cấp bộ nhớ AI ở các lớp nhiệt độ khác nhau
Nhu cầu tăng trưởng theo cấp số nhân mang tính cấu trúc đã có, NAND SSD có thoát khỏi chu kỳ không? Vậy thì phải xem kỷ luật sản xuất của các nhà sản xuất NAND SSD. Người duy nhất có thể không tuân thủ kỷ luật sản xuất là YMTC. Rốt cuộc, đây là một thế tiến thoái lưỡng nan của người tù, một khi có một nhà sản xuất không tuân thủ võ đức mở rộng sản xuất điên cuồng, toàn bộ ngành NAND sẽ gặp khó khăn trong việc mở rộng sản xuất dễ dàng hơn nhiều so với DRAM.
Nhưng ít nhất, vòng này của NAND cũng là một chu kỳ siêu tăng trưởng, nhu cầu từ một số động lực tăng trưởng cấu trúc theo cấp số nhân, việc trì hoãn chu kỳ đi xuống đến năm 2030 là không có vấn đề.
Nhấp để tìm hiểu về các vị trí tuyển dụng của BlockBeats
Chào mừng tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram giao lưu: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia