Suy diễn kết cục của chất bán dẫn AI: Khoảng trống còn kéo dài ít nhất năm năm?

Tiêu đề gốc: «Diễn biến cuối cùng của AI bán dẫn 2026 (II)»
Tác giả gốc: fin, nhà phân tích AI

Khi chất bán dẫn phát triển theo cấu trúc đến chủ đề chính của suy luận AI, bộ nhớ và lưu trữ trở thành nút thắt cổ chai lớn nhất, và nghi ngờ lớn nhất của thị trường về bộ nhớ và lưu trữ là:

Liệu HBM/DRAM/SSD có thoát khỏi chu kỳ truyền thống không?

Liệu lộ trình kiến trúc GPU phụ thuộc vào sự tăng trưởng theo cấp số nhân của HBM có dừng lại không? Khi nào thì dừng?

Tác động của việc mở rộng sản xuất của ChangXin (长鑫) lớn đến mức nào? Liệu nó có đưa thị trường này trở lại vũng lầy chu kỳ không?

Bài viết này cố gắng xây dựng một khuôn khổ để giải quyết những vấn đề này

Vạn vật đều có chu kỳ, và tính chu kỳ của bộ nhớ đặc biệt mạnh, nguồn gốc lớn nhất nằm ở chu kỳ mở rộng sản xuất quá dài, không thể mở rộng nhanh chóng và sự không phù hợp trong giai đoạn thiếu hụt nhu cầu

Một số cách có thể thoát khỏi chu kỳ truyền thống

  1. Tùy chỉnh: Sản phẩm không thể hoán đổi, năng lực sản xuất không thể chuyển giao tùy tiện, cần ký hợp đồng dài hạn.

  2. Tăng trưởng nhu cầu theo cấp số nhân mang tính cấu trúc: Đường cầu tự nó rất dốc, và nguồn cung luôn không theo kịp.

  3. Cập nhật công nghệ nhanh chóng: Mỗi thế hệ sản phẩm nhanh chóng loại bỏ thế hệ trước.

Đáp ứng bất kỳ một điều kiện nào, có thể phần nào thoát khỏi chu kỳ truyền thống; đáp ứng hai đến ba điều kiện, có thể thoát khỏi phần lớn chu kỳ truyền thống

Theo khuôn khổ này, HBM trong ba điều kiện, khoảng chiếm hai rưỡi

  1. Tùy chỉnh, cần ký hợp đồng dài hạn (yếu, tính nửa) ====================

HBM thực sự có yếu tố tùy chỉnh và đồng thiết kế với Nvidia, nhưng không mạnh lắm. Phần thực sự tùy chỉnh chỉ nằm ở bao bì và base die, khoảng chục lớp DRAM die bên trên vẫn hoàn toàn tiêu chuẩn JEDEC.

Ví dụ, khi HBM3E của Samsung không vượt qua được quá trình qualification của NVIDIA, thị phần giảm từ khoảng 60% xuống còn 20%, họ không ôm lô năng lực sản xuất này để phế bỏ, mà chuyển ngay cho TPU của Google và AMD. Về mặt vật lý, HBM3E cung cấp cho NVIDIA và HBM3E cung cấp cho AMD là cùng một thứ. Vì vậy, năng lực sản xuất vẫn có thể chuyển giao một phần tự do.

Sau HBM4, việc tùy chỉnh nhiều hơn, bao gồm tích hợp logic tùy chỉnh và/hoặc bộ nhớ đệm trên base die. Cách phức tạp hơn là đặt trực tiếp bộ điều khiển bộ nhớ HBM4E và giao diện die-to-die tùy chỉnh vào base die logic

SemiAnalysis đề cập rằng OpenAI, NVIDIA và AMD đều đang làm việc về HBM tùy chỉnh, nhưng điều này đề cập đến việc tùy chỉnh base die, các lớp DRAM bên trên vẫn là tiêu chuẩn.

Đặc tính tùy chỉnh một phần, HBM chủ yếu yêu cầu hợp tác về bao bì, điều này cũng khiến khách hàng phải ký hợp đồng dài hạn, nhưng năng lực sản xuất thực sự có thể chuyển giao, vì vậy HBM có thể tính là nửa điều kiện.

  1. Tăng trưởng nhu cầu theo cấp số nhân mang tính cấu trúc (đáp ứng) =================

Lý do trực quan nhất là nhu cầu nâng cấp phần cứng token throughput của Nvidia token factory, dẫn đến tốc độ nâng cấp băng thông HBM rất nhanh và nhu cầu về kích thước HBM tăng theo cấp số nhân

Điều này thực chất là kết luận của bài viết trước Diễn biến cuối cùng của AI bán dẫn 2026 (I):

token throughput = kích thước HBM × băng thông HBM, mỗi thế hệ tăng gấp đôi.

Kích thước HBM trên mỗi GPU tăng khoảng hơn 40% mỗi năm

Độ dốc của đường cầu này là rất khó để nguồn cung DRAM với mức tăng wafer 14% nhân với mức cải thiện mật độ 9% có thể theo kịp

Trong lĩnh vực phần cứng, do yêu cầu về băng thông cực cao và kích thước bộ nhớ cực cao của KV cache trong giai đoạn attn, điều này cũng dẫn đến vị thế độc đáo của HBM. Ngay cả khi HBM tăng giá ba đến năm lần, việc chi tiền cho HBM để cải thiện token throughput biên vẫn có lợi hơn nhiều so với chi tiêu vào nơi khác.

Các lộ trình bộ nhớ khác như SRAM, HBF, CXL, PIM, hiện tại không thể cạnh tranh trực diện trên đường đua chính kv cache/attention của HBM, ít nhất trong 5 năm tới hoặc thậm chí lâu hơn, khó có thể tìm ra lộ trình thay thế

  1. Cập nhật công nghệ nhanh chóng (đáp ứng) ===============

Thời đại DDR3 kéo dài 15 năm, vẫn chỉ là thời đại DDR5, trong khi tốc độ nâng cấp của HBM về cơ bản là hai năm một thế hệ, nhanh hơn nhiều so với DDR truyền thống, và gần đây còn có xu hướng tăng tốc. Kích thước HBM x Băng thông HBM tăng gấp đôi mỗi thế hệ, hiện tại hoàn toàn tuân theo quy luật này

Cứ hai năm một thế hệ nâng cấp HBM, tốc độ GPU của NV về cơ bản tăng theo cấp số nhân: 2TB/s ->3.5TB/s->4.8TB/s ->8TB/s->22TB/s, và tốc độ của HBM hoàn toàn tỷ lệ thuận với token throughput suy luận. Chi phí sử dụng biên của thế hệ HBM trước sẽ không còn kinh tế, mọi người đều có động lực để sử dụng sản phẩm mới nhất càng nhiều càng tốt, mặc dù đắt hơn, nhưng lợi ích mang lại (token throughput) là nhiều hơn

Logic của thời đại Token factory là: càng nâng cấp công nghệ (băng thông HBM), càng kiếm được nhiều tiền

Sự chênh lệch tốc độ này tạo ra một tình huống tương tự như CPU: sản phẩm cũ mất giá nhanh chóng, do đó giá trị của việc tích trữ trở nên thấp hơn. Ví dụ, giá trị của HBM3 mất giá rất nhanh, ngày nay về cơ bản không còn sản phẩm chủ lực sử dụng

Vì vậy, lựa chọn hợp lý của các nhà sản xuất HBM, từ cạnh tranh về năng lực sản xuất hiện tại để chiếm thị trường (cạnh tranh về số lượng), chuyển sang cạnh tranh về độ ổn định và tốc độ HBM, cạnh tranh về thị phần qualification trên nền tảng NVIDIA thế hệ tiếp theo (cạnh tranh về chất lượng), từ đó tránh được thế tiến thoái lưỡng nan của người tù trong chu kỳ đi xuống truyền thống, khi mọi người đều không muốn giảm sản lượng để mất thị phần.

So sánh HBM và DRAM truyền thống, trong ba điều kiện, HBM đáp ứng hai rưỡi, vậy HBM có thể thoát khỏi chu kỳ truyền thống không?

Nguồn gốc của tính chu kỳ bộ nhớ, theo câu chuyện chính thống, là DRAM có thuộc tính hàng hóa (không khác biệt hóa → chiến tranh giá cả → hàng tồn kho có thể tích trữ), do đó có tính chu kỳ.

Bản thân thuộc tính hàng hóa không tạo ra chu kỳ, nó chỉ là một bộ khuếch đại biên độ

Đặc biệt trong lĩnh vực DRAM, từng xuất hiện thế tiến thoái lưỡng nan của người tù. Trong chu kỳ đi xuống, Samsung từng mở rộng sản xuất để giành thị phần, ai giảm sản lượng trước sẽ chịu thiệt, dẫn đến không ai dám giảm sản lượng dễ dàng, cuối cùng tất cả đều thua lỗ thảm hại

Thực tế, nguồn gốc cấu trúc chính của tính chu kỳ là chu kỳ cung cấp quá dài, dễ dàng lệch pha với chu kỳ nhu cầu. Xây dựng một fab mất 3 năm, đầu tư hàng chục tỷ đô la, một khi quyết định là không thể đảo ngược, trong khi tăng trưởng nhu cầu có sự bất ổn định. Mỗi khi xuất hiện sự tăng trưởng theo mô hình mới, như dịch vụ đám mây, điện thoại di động Internet, nhu cầu trực tuyến trong đại dịch, sẽ có sự tăng trưởng bùng nổ, nhưng sau hai năm tăng trưởng sẽ chậm lại, cung vượt cầu, giảm giá quá mạnh, biến thành chu kỳ thua lỗ

Vạn vật đều có chu kỳ, HBM cũng không thể tránh khỏi điều này, nhưng miễn là nhu cầu token vẫn tăng theo cấp số nhân, sự tăng trưởng theo cấp số nhân mang tính cấu trúc sẽ làm suy yếu tính chu kỳ, vì nhu cầu có thể dự đoán tốt hơn, và một khi giảm giá, khách hàng có nhu cầu tăng kích thước HBM (do đó tăng token throughput), cùng với yêu cầu tùy chỉnh một phần của HBM dẫn đến hợp đồng dài hạn, từ đó chuyển từ tính chu kỳ sang tính chu kỳ tăng trưởng, và chu kỳ này sẽ đặc biệt dài

· Tính chu kỳ: Trong chu kỳ tăng, kiếm được nhiều; trong chu kỳ giảm, thua lỗ nhiều.

· Tính chu kỳ tăng trưởng: Trong chu kỳ tăng, kiếm được nhiều; trong chu kỳ giảm, kiếm được ít.

Ngoài ra, dựa trên ba điều kiện thoát khỏi chu kỳ truyền thống, HBM/DRAM còn có một lợi thế quan trọng:

  1. Do tốc độ tăng mật độ DRAM scaling ngày càng chậm và việc nâng cấp HBM dẫn đến tăng số lần xếp chồng DRAM, khó khăn trong việc mở rộng sản xuất từ phía cung ngày càng tăng ====================================================================

Khoảng năm 2000, mật độ bit DRAM trên mỗi wafer tăng khoảng 45% mỗi năm, có nghĩa là ngay cả khi số lượng wafer không mở rộng, lượng bit DRAM từ phía cung mỗi năm vẫn có thể tăng 45%

Mười năm trước, mức tăng mật độ bit DRAM mỗi năm giảm xuống còn 20%, và hiện tại, mức tăng mật độ bit DRAM mỗi năm giảm xuống còn 9%. Trước đây, mở rộng sản xuất DRAM thậm chí không cần xây dựng nhà máy mới để có được mức tăng khối lượng bit hàng năm 20~30%. Bây giờ, mở rộng sản xuất DRAM chủ yếu dựa vào sự tăng trưởng số lượng wafer, tức là xây dựng nhà máy mới và phòng sạch.

Một khó khăn khác trong việc mở rộng nhanh chóng HBM là HBM3e cần khoảng gấp 3 lần số wafer DRAM, trong khi HBM4 do tăng mật độ xếp chồng, cần khoảng gấp 4 lần số wafer DRAM, tương đương với việc bit HBM so với bit DRAM ngày càng khó sản xuất hơn, số lượng bit HBM được sản xuất từ một lượng wafer DRAM ngày càng ít, tương đương với giảm phát

Một ngày nào đó trong tương lai, liệu HBM có chuyển từ tính chu kỳ tăng trưởng trở lại tính chu kỳ truyền thống không? Yếu tố quan trọng nhất là sự tăng trưởng theo cấp số nhân mang tính cấu trúc, vậy

Trong thời đại suy luận AI, liệu lộ trình kiến trúc GPU phụ thuộc vào sự tăng trưởng theo cấp số nhân của HBM có dừng lại không? Khi nào thì dừng?

token throughput = kích thước HBM × băng thông HBM, lý do tăng kích thước HBM trong nguyên lý đầu tiên của sự tăng trưởng theo cấp số nhân này chính là do sự tăng trưởng của KV cache. Đặc điểm của KVCache và Attention cũng rất phù hợp với HBM. Thậm chí còn làm cho HBM dẫn trước các lộ trình công nghệ khác, có thể tối đa hóa việc sử dụng KVCache và giai đoạn Attention.

Nói cách khác, nếu KV cache không còn tồn tại về mặt kiến trúc, thì logic tăng trưởng theo cấp số nhân của kích thước HBM cũng sẽ bị thách thức

Vì vậy, bản chất của vấn đề này là liệu cơ chế attention đại diện bởi Transformer và cơ chế KV cache bắt nguồn từ nó có biến mất không? Sau khi thủy triều rút, liệu nó có bị thay thế không?

Nhìn từ quy luật lịch sử: Mỗi cuộc cách mạng kiến trúc mô hình AI, những thứ thực sự được giữ lại là những thao tác nguyên thủy (primitive) có tính phổ quát toán học

Ví dụ: FFN (mạng truyền thẳng, tức là lớp MLP lớn trong mô hình) là sản phẩm của thời đại học sâu năm 2012, nhưng nó đã sống sót đến ngày nay trong các mô hình ngôn ngữ lớn và vẫn chiếm một lượng tham số đáng kể của mô hình. Tại sao nó có thể sống sót? Vì đó cũng là một định lý xấp xỉ phổ quát (universal approximation theorem): Bất kỳ MLP đủ rộng nào cũng có thể xấp xỉ bất kỳ hàm liên tục nào

Attention cũng có khả năng là một nguyên thủy như vậy sẽ được giữ lại. Vì nó giải quyết một vấn đề cơ bản tương tự: định tuyến động (dynamic routing) giữa bất kỳ hai vị trí nào trong một chuỗi sequence, cho phép bất kỳ hai vị trí nào trong một chuỗi thiết lập kết nối theo nhu cầu. Một khi khả năng này được chứng minh là hiệu quả, rất khó để bỏ nó đi

Vì vậy, ngay cả khi kiến trúc tương lai chuyển từ Transformer thuần túy sang kiến trúc lai hoặc sang mô hình thế giới, lớp attention vẫn sẽ tồn tại, KV cache (hoặc tương đương sau khi nén tiềm ẩn) vẫn cần thiết, HBM vẫn sẽ là một trong những cốt lõi của suy luận, lộ trình kiến trúc GPU KV cache phụ thuộc vào sự tăng trưởng theo cấp số nhân của HBM này sẽ không dừng lại

Vậy DRAM thì sao? Có khả năng thoát khỏi chu kỳ truyền thống trong tương lai không?

HBM thoát khỏi chu kỳ có một số đồng thuận trên thị trường, nhưng DRAM thoát khỏi chu kỳ, hiện tại thị trường về cơ bản không có đồng thuận

Quay lại khuôn khổ vừa nãy, trong ba điều kiện thoát khỏi chu kỳ truyền thống, DRAM không có tùy chỉnh, vì vậy chỉ có thể xem xét tốc độ cập nhật công nghệ, quan trọng nhất là xem có sự tăng trưởng theo cấp số nhân mang tính cấu trúc hay không, câu trả lời là có

Trong khái niệm token factory AI, sự tăng trưởng theo cấp số nhân mang tính cấu trúc thực sự chủ yếu là HBM. Nhưng mọi thứ đã thay đổi sau cuối năm 2025: khi agentic CPU bắt đầu phát huy tiềm năng, nhu cầu DRAM đi kèm với CPU đang trở thành nguồn tăng trưởng theo cấp số nhân mang tính cấu trúc mới cho DRAM

Logic tăng trưởng của phần này được chia thành hai lớp: Lớp thứ nhất là sự tăng trưởng nhanh chóng của TAM máy chủ CPU, lớp thứ hai là lượng DRAM trang bị cho mỗi lõi CPU máy chủ tăng nhanh do agentic flow

4 logic của sự tăng trưởng nhanh chóng của TAM CPU máy chủ đã được viết chi tiết trong bài chuyên đề CPU tháng 4, nói một cách đơn giản:

  1. Tỷ lệ CPU và GPU trong cụm tăng tốc AI thay đổi từ 1:4 truyền thống thành 1:2, và thậm chí có thể tiến tới 1:1

  2. Trong agentic flow, độ trễ do CPU xử lý chiếm tỷ lệ rất cao, 50~90%, trở thành nút thắt cổ chai quan trọng, cần mở rộng quy mô đồng bộ

  3. AI coding làm tăng đáng kể hiệu quả của SDE, số lượng mã tăng theo cấp số nhân, số lượng cuộc gọi API phần mềm tăng theo cấp số nhân, trực tiếp chuyển đổi thành sự tăng theo cấp số nhân của số giờ CPU này

  4. Sandbox để đảm bảo an toàn và cách ly dữ liệu, chẳng hạn như Analytical Agent cần sao chép một lượng lớn cơ sở dữ liệu và ngữ cảnh người dùng cho mỗi tác vụ, dẫn đến lãng phí nghiêm trọng bộ nhớ (DRAM) và lõi CPU, và vấn đề lãng phí này không thể giải quyết trong năm năm hoặc thậm chí lâu hơn. Ngoài ra, số giờ CPU về mặt kỹ thuật rất khó giảm phát thông qua các phương pháp tối ưu hóa

Đây cũng là lý do tại sao, trong quý trước, báo cáo tài chính của AMD cho biết TAM CPU sẽ đạt 60B vào năm 2030, hai tháng trước, AMD/ARM đã tăng gấp đôi dự báo TAM CPU năm 2030 lên 120B, một tháng trước, Nvidia một lần nữa tăng gấp đôi dự báo TAM CPU năm 2030 lên 200B

Và tuần trước, Bernstein một lần nữa nâng hướng dẫn TAM CPU 2030 lên 223B. Theo tôi, việc TAM CPU 2031 được nâng lên 400B trong tương lai là điều không có gì ngạc nhiên, điều duy nhất còn nghi ngờ là khi nào một số gã khổng lồ sẽ công bố nâng hướng dẫn này

Lớp thứ hai, tại sao lượng DRAM trang bị cho mỗi lõi CPU máy chủ lại tăng nhanh trong thời đại agentic?

  1. Agent là tiến trình thường trú có trạng thái, không phải request-response không trạng thái

Web/SaaS truyền thống là stateless: request đến, cấp phát bộ nhớ, xử lý xong thu hồi bộ nhớ ngay lập tức. Trong khi một tác vụ Agent có thể chạy từ một phút đến một giờ, trong suốt khoảng thời gian này, message history, system prompt, working memory, long-term memory, tool result buffer của nó đều thường trú trong DRAM

Giống như giờ CPU, dấu chân bộ nhớ của mỗi tác vụ do yêu cầu stateful và cách ly sandbox (mỗi tác vụ sao chép cơ sở dữ liệu và ngữ cảnh) rất khó nén về mặt kỹ thuật

  1. Cửa sổ ngữ cảnh ngày càng dài theo cấp số nhân, bộ làm việc của mỗi phiên mở rộng theo, độ đồng thời × dấu chân bộ nhớ mỗi phiên, nhân lên khuếch đại

context window từ 32K → 256K → 1M, độ dài chuỗi của reasoning / test-time compute bùng nổ, sẽ tiếp tục tăng trong tương lai. Các messages thường trú của mỗi phiên hoạt động tăng tuyến tính theo độ dài context

Bây giờ nhân hai lớp lại với nhau.

Lớp thứ nhất, TAM của máy chủ CPU, nhìn về 2030~2031 khoảng 5–7 lần (60B → 120B → 200B → 223B, tôi nghĩ sẽ còn lên 400B)

Lớp thứ hai, tỷ lệ DRAM trên mỗi CPU, khoảng 3–4 lần (4~8GB → 16~32 GB/core), nhưng sự tăng trưởng này có thể phần lớn là cổ tức một lần

Hai biến độc lập nhân với nhau, nhu cầu DRAM phía máy chủ là sự tăng trưởng theo cấp số nhân

Năm 2030, ngay cả với TAM CPU bảo thủ 300B, một core CPU tính $50, thời đại agent bảo thủ nhất tính 16GB/core, điều này tính ra mức tăng mới ít nhất là 96EB, trong khi tổng sản lượng DRAM năm nay chỉ là 47EB, năm sau cố gắng lắm mới được 60EB, đây là một mức tăng đáng kinh ngạc

Mặc dù sự tăng trưởng theo cấp số nhân của DRAM do agentic CPU mang lại, ở lớp thứ hai phần lớn là cổ tức một lần, nhưng thời gian kéo dài sẽ rất lâu, vì khoảng cách thiếu hụt quá lớn

Quay lại khuôn khổ đầu bài viết. Trong ba điều kiện thoát khỏi chu kỳ truyền thống, điều kiện đầu tiên là tùy chỉnh DRAM, về cơ bản có thể bỏ qua

Còn điều kiện thứ hai: một nguồn nhu cầu mang tính cấu trúc, theo cấp số nhân và rất khó đảo ngược là có. Commodity DRAM bây giờ cũng có tư cách để phần nào thoát khỏi tính chu kỳ truyền thống. Không triệt để như HBM (hai rưỡi), nhưng đã là một thay đổi thực chất

Điều kiện thứ ba, tốc độ cập nhật công nghệ, nhịp điệu của DRAM cũng không giống trước đây

Vì tốc độ cập nhật công nghệ DRAM trước đây phụ thuộc nhiều vào điện tử tiêu dùng, sự tiến bộ của DDR không hữu ích lắm cho hiệu suất, nhưng trong tương lai có thể thấy trước, DRAM truyền thống dựa trên carbon (tiêu dùng) sẽ ít hơn nhiều so với DRAM dựa trên silicon (máy chủ CPU)

Trước đây, lợi ích biên của việc nâng cấp tốc độ DRAM rất thấp, nhưng bây giờ do nhu cầu về bộ nhớ của máy chủ CPU tăng lên, và nhu cầu về tốc độ DDR của AI thiết bị đầu cuối cũng tăng lên, ví dụ Apple để chạy mô hình lớn cục bộ, tốc độ LPDDR ngày càng nhanh

Lợi ích biên của việc nâng cấp tốc độ đã tăng lên đáng kể, vì vậy nhu cầu cập nhật tốc độ của DDR6 và LPDDR6 đã tăng lên rất nhiều so với trước đây, điều này cũng có thể thấy trong biểu đồ, thời gian cập nhật của LPDDR6/DDR6 đã rút ngắn, và độ dốc tốc độ bắt đầu tăng trở lại

Trước đây, khi công nghệ DDR/LPDDR thế hệ mới ra mắt, phản ứng của mọi người đều rất lạnh nhạt, chỉ sử dụng khi giảm giá

Còn bây giờ LPDDR6 ra mắt, các nhà sản xuất đều tranh nhau sử dụng càng sớm càng tốt, vì sự cải thiện tốc độ mang lại sự cải thiện hiệu suất rõ rệt

Ngoài ra, nguồn cung DDR còn bị HBM đánh thêm một loại thuế. Tốc độ mở rộng sản xuất hàng năm của HBM quá nhanh, dẫn đến mỗi năm một lượng wafer có thể làm commodity DDR bị kéo sang làm HBM, và tỷ lệ chuyển đổi của HBM rất thấp, HBM3E cần khoảng 3 wafer DDR để sản xuất ra lượng bit tương đương, HBM4 là 4 wafer. Vì vậy, mỗi năm khoảng 3% đến 5% tăng trưởng bit DDR bị loại thuế bit HBM này ăn mất trực tiếp

Vì vậy, mặc dù khối lượng bit DRAM trong tương lai có thể tăng khoảng 24% mỗi năm (14% từ tăng wafer, 9% từ tăng mật độ DRAM trên mỗi wafer), nhưng sau khi tính thuế bit HBM, commodity DDR truyền thống, không phải HBM, mỗi năm chỉ tăng khoảng 20% (khoảng 10% tăng wafer × khoảng 9% cải thiện mật độ node)

Tác động của việc mở rộng sản xuất của ChangXin (长鑫) Trung Quốc lớn đến mức nào? Nếu không tuân thủ võ đức mà mở rộng sản xuất điên cuồng, liệu có đưa thị trường này trở lại vũng lầy chu kỳ không?

Tốc độ mở rộng sản xuất của ChangXin trong những năm gần đây vẫn rất nhanh, năm 2025 vẫn là 200.000 wafer mỗi tháng, đến năm 2026, nhà máy wafer Bắc Kinh và các dây chuyền sản xuất mới sẽ đạt 320.000~350.000.

Nhà máy Thượng Hải đang xây dựng giai đoạn một và hai, giai đoạn một dự kiến đến năm 2027 sẽ thêm 100.000 wafer mỗi tháng, giai đoạn hai dự kiến đến năm 2028 sẽ thêm 100.000 wafer mỗi tháng, tức là năm 2027 mỗi tháng 420.000 wafer, năm 2028 có thể đạt 500.000 wafer mỗi tháng.

Nhưng cần lưu ý, mật độ bit dram của ChangXin chỉ bằng khoảng một nửa so với ba nhà sản xuất lớn (Samsung, SK Hynix, Micron), vì vậy 500.000 wafer mỗi tháng của ChangXin chỉ sản xuất được một nửa khối lượng bit dram so với các nhà khác, khi tính wafer per month, tính theo một nửa tương đương

Sau khi áp dụng chiết khấu này, tác động của ChangXin đối với toàn bộ ngành DRAM vẫn giảm đi nhiều, từ cuối năm 2025 đến cuối năm 2028, tác động của ChangXin đối với CAGR năng lực sản xuất bit DRAM chỉ khoảng 1.5%, CAGR năng lực sản xuất DRAM toàn ngành tăng từ khoảng 12.7% lên 14.2%

· Năng lực sản xuất hàng tháng DRAM (kwspm) CAGR 2025E → 2028E

· Samsung 685K → 920K 10.3%

· SK Hynix 519K → 725K 11.8%

· Micron 340K → 560K 18.1%

· Khác không phải Trung Quốc 150K → 218K 13.3%

· Trung Quốc (mật độ giảm một nửa) 117K → 274K 32.8%

· Tổng bao gồm Trung Quốc 1811K → 2697K 14.2%

· Tổng không bao gồm Trung Quốc 1694K → 2423K 12.7%

Ngay cả khi ChangXin trong tương lai vẫn giữ được tốc độ tăng sản xuất, tác động đến CAGR tăng sản lượng bit DRAM hàng năm của toàn ngành vào năm 2030 cũng chỉ khoảng dưới 3%, từ 20% CAGR thành 23% CAGR, chỉ có vậy

Ngoài ra, ChangXin bị giới hạn bởi máy quang khắc, trong khi DDR6 yêu cầu tốc độ cao hơn (bắt đầu từ 14400 MT/s) và mật độ cao hơn, ba nhà sản xuất lớn có thể sẽ sử dụng node 1c hoặc node tiên tiến hơn (~12nm trở xuống) cho DDR6, và đã sử dụng hoàn toàn EUV. ChangXin có thể bị giới hạn tốc độ trên DDR6, và mật độ chỉ bằng một nửa.

Ngay cả với chu kỳ tăng trưởng, tại sao chu kỳ siêu tăng trưởng này của DRAM sẽ kéo dài trong thời gian dài, ít nhất năm năm không thấy điểm cuối?

Lý do đầu tiên là sự tăng trưởng theo cấp số nhân mang tính cấu trúc của nhu cầu DRAM do sự gia tăng khổng lồ từ phía nhu cầu máy chủ CPU vừa được thảo luận. Kết hợp với CAGR khối lượng bit từ phía cung DRAM ổn định khoảng 20%, có thể thấy rõ ràng tại sao khoảng cách thiếu hụt DRAM trong những năm tới ngày càng lớn:

Nguồn cung DRAM truyền thống không phải HBM tăng khoảng 20% mỗi năm, trong khi nhu cầu, tính theo TAM CPU 60B năm 2026, mỗi CPU tiêu thụ trung bình 8GB/core DRAM, mỗi core $30~35, nhu cầu là 16EB

Đến năm 2030, theo TAM CPU 400B, mỗi CPU tiêu thụ trung bình 16GB/core DRAM, mỗi core $80 (CPU tăng giá hơn gấp đôi), nhu cầu là 80EB, phần tăng trưởng DRAM này CAGR khoảng 50%, vượt xa ước tính hiện tại

Khác với HBM liên quan trực tiếp đến token throughput và do đó liên quan trực tiếp đến hiệu quả kiếm tiền của GPU, thiếu DRAM ảnh hưởng chủ yếu đến tốc độ của agent flow. Ví dụ, so với 8GB/core và 16GB/core, một số workload có thể giảm tốc độ 30%, một số tác vụ giá trị thấp có thể chờ được, động lực tăng trưởng theo cấp số nhân rất mạnh, nhưng nhu cầu không cứng nhắc như GPU

Semianalysis cho biết khoảng cách thiếu hụt DRAM năm nay là đơn vị phần trăm, năm sau là hơn 10%. Nhìn từ cấu trúc DRAM do sự gia tăng số lượng agent CPU, khoảng cách này sẽ tiếp tục tăng lên hàng năm, không thấy khả năng giảm trước năm 2030

Một lý do khác khiến DRAM có thể duy trì sức mạnh trong thời gian dài là sau khi DRAM tăng giá, phần nhu cầu bị tiêu diệt bởi việc tăng giá không thực sự biến mất, chỉ bị trì hoãn, hồ chứa nhu cầu quá lớn.

Cái gọi là hồ chứa là những nhu cầu tiềm năng mà "một khi bộ nhớ giảm giá sẽ được giải phóng ngay lập tức". Sự tồn tại của chúng có nghĩa là ngay cả khi nguồn cung tạm thời theo kịp, giá cũng khó sụp đổ, vì luôn có nhu cầu mới từ hồ chứa trào ra để tiếp nhận:

Bộ nhớ quy đổi thành sức mạnh tính toán/tốc độ là một hồ chứa:

Có rất nhiều nhu cầu mà lẽ ra cần thêm bộ nhớ để tối ưu hóa tốc độ và sức mạnh tính toán, nhưng bị kìm hãm khi bộ nhớ quá đắt, và sẽ được giải phóng một khi bộ nhớ giảm giá.

Ví dụ, CPX prefill accelerator của Nvidia, thiết kế ban đầu là sử dụng GDDR7 giá rẻ bổ sung để làm một bộ tăng tốc prefill chuyên dụng, nhưng LPDDR/GDDR quá đắt, thậm chí còn đắt hơn HBM trước khi tăng giá, ROI của giải pháp này không còn kinh tế. Nhưng khi bộ nhớ thông thường giảm giá, các giải pháp tối ưu hóa tương tự CPX sẽ quay trở lại

Các tác vụ giá trị thấp là một hồ chứa: Khi tăng giá bộ nhớ khiến token giá cao, các tác vụ giá trị cao được ưu tiên giữ lại, các tác vụ giá trị thấp bị hoãn lại; khi bộ nhớ giảm giá, những nhu cầu bị trì hoãn này sẽ quay trở lại.

AI thiết bị đầu cuối là một hồ chứa: Cấu hình bộ nhớ của AI PC có thể tăng từ 24GB lên 128GB. Apple đã yêu cầu rõ ràng phiên bản đầy đủ sức mạnh của AI thiết bị đầu cuối mới nhất cần nâng cấp từ 8GB lên 12GB bộ nhớ

Điện tử tiêu dùng thông thường, Agent PC, điện thoại cấp thấp, nhu cầu giảm do tăng giá bộ nhớ, tất cả đều là hồ chứa.

Nhiều hồ chứa xếp chồng lên nhau tạo thành một lớp đệm nhu cầu rất dày. Đó là lý do tại sao sự tăng trưởng cấu trúc của DDR trong vòng này có sức bền mạnh hơn thị trường tưởng tượng.

Còn một lý do nữa khiến giá DRAM khó giảm mạnh là do năng lực sản xuất HBM và DRAM có thể chuyển đổi lẫn nhau, vì vậy toàn bộ tổ hợp DRAM được tái định giá cùng nhau

Trong chu kỳ tăng, tỷ suất lợi nhuận của DRAM vượt xa HBM, mức tăng giá của HBM thậm chí còn bị thúc đẩy bởi DRAM. Giá HBM4 mới ký hợp đồng năm nay là giá DRAM hiện tại x 4, tức là giá tương ứng với số lần xếp chồng thông thường cho HBM4

Một khi DRAM giảm giá và biên lợi nhuận giảm, do tính minh bạch của hợp đồng dài hạn HBM, tỷ suất lợi nhuận đều được đảm bảo, HBM sẽ gián tiếp rút thêm năng lực sản xuất DRAM, việc giảm giá HBM cũng sẽ khuyến khích các nhà sản xuất GPU nâng cấp kích thước HBM nhiều nhất có thể, điều này cũng gián tiếp đảm bảo sàn giá cho DRAM

Nhu cầu tăng trưởng theo cấp số nhân mang tính cấu trúc của DRAM đã có, khó khăn trong việc mở rộng sản xuất do scaling mật độ chậm lại ngày càng tăng, kế hoạch mở rộng sản xuất của các nhà sản xuất rất thận trọng, tác động của ChangXin trong những năm tới cũng hạn chế, cộng với hồ chứa nhu cầu rất lớn, bốn lý do này dẫn đến, trong vòng ít nhất năm năm hoặc thậm chí lâu hơn có thể thấy trước, DRAM rất khó rơi vào đáy chu kỳ.

NAND SSD có hy vọng thoát khỏi chu kỳ truyền thống không?

Động lực tăng trưởng cấu trúc của NAND không mạnh bằng DDR, lý do chính của tình trạng thiếu hụt năm nay là kỷ luật sản xuất của một số người chơi chính được duy trì tốt, không mở rộng sản xuất quy mô lớn, mỗi năm tăng năng lực sản xuất chủ yếu đến từ cải tiến công nghệ: tăng số lớp xếp chồng NAND

Động lực tăng trưởng cấu trúc đầu tiên đến từ AI, chủ yếu từ việc offloading KV cache, chuyển KV cache warm/cold tràn ra khỏi HBM sang NAND SSD.

Nhưng điều kỳ diệu là sự tăng trưởng của offloading KV cache này thậm chí còn chưa xảy ra trên quy mô lớn, SSD đã thiếu hụt nghiêm trọng hơn DRAM, và tăng giá cũng nhiều hơn DRAM. Đợi đến khi Rubin CMX ra mắt với số lượng lớn vào năm sau, cùng với ứng dụng offloading KV cache trên quy mô lớn, tình trạng thiếu hụt SSD cũng sẽ tăng lên do sự tăng trưởng cấu trúc này

Thứ hai, một động lực tăng trưởng cấu trúc khác được đề cập trong tổng kết cuối năm ngoái là AI video có thể kỳ vọng trong tương lai, năm nay đã có xu hướng phát triển ra bên ngoài

Quy mô của Seedance đang tăng với tốc độ gấp mười đến bốn mươi lần mỗi năm. Hiện tại nó vẫn bị kẹt trong giai đoạn thiếu card tính toán, nhu cầu bị kìm hãm bởi sức mạnh tính toán chưa được giải phóng hoàn toàn. Nhưng khi giai đoạn thiếu card qua đi, sự tăng trưởng nhu cầu cấu trúc của AI video đối với lưu trữ NAND sẽ kéo dài trong một thời gian khá lâu.

Động lực tăng trưởng cấu trúc thứ ba cũng đến từ sự gia tăng theo cấp số nhân của việc sử dụng Sandbox do agent flow mang lại. Để đảm bảo an toàn và cách ly dữ liệu, chẳng hạn như Analytical Agent cần sao chép một lượng lớn cơ sở dữ liệu và ngữ cảnh người dùng cho mỗi tác vụ, dẫn đến lãng phí nghiêm trọng bộ nhớ (DRAM) và lõi CPU, đồng thời cũng sẽ dẫn đến một lượng lớn lãng phí (nhu cầu) SSD

Động lực tăng trưởng cấu trúc thứ tư, có thể phát huy tác dụng sau năm 2030, đến từ lộ trình HBF cần sử dụng SSD, được nhiều phân tích ngân hàng đầu tư kỳ vọng, nhưng lộ trình công nghệ này còn hơi xa, vai trò chính chỉ có thể là lưu trữ weights của mô hình lớn, viết weights một lần rồi chỉ đọc, và phải được đóng gói cùng với GPU/HBM (48TBps/96TBps), nếu không thì tốc độ PCIE7/8 quá chậm không thể sử dụng. Có thể kỳ vọng trong tương lai, bài viết tiếp theo Diễn biến cuối cùng của AI bán dẫn 2026 (III) sẽ có phân tích chi tiết hơn

Tóm lại, sự tăng trưởng cấu trúc của NAND SSD không mạnh bằng HBM, nhưng lợi thế ở chỗ rẻ, giá đến năm 2027 chỉ $0.8/GB, bằng 1/40 so với DRAM cùng kỳ, vì vậy nó cũng là một thuộc tính linh hoạt trong bộ nhớ đệm đa cấp, nguồn tăng trưởng cấu trúc quá rộng

Nói cách khác, không tồn tại tình huống DRAM/HBM tăng giá một mình thịnh vượng trong khi SSD không tăng giá, bởi vì nếu tình huống như vậy xảy ra, mọi người sẽ tìm cách sử dụng SSD để đảm nhận một phần chức năng của DRAM/HBM, đạt được hiệu quả tương tự với chi phí thấp hơn. HBM, DRAM, NAND không phải là ba câu chuyện độc lập, mà là sự tăng trưởng cấu trúc của cùng một hệ thống phân cấp bộ nhớ AI ở các lớp nhiệt độ khác nhau

Nhu cầu tăng trưởng theo cấp số nhân mang tính cấu trúc đã có, NAND SSD có thoát khỏi chu kỳ không? Vậy thì phải xem kỷ luật sản xuất của các nhà sản xuất NAND SSD. Người duy nhất có thể không tuân thủ kỷ luật sản xuất là YMTC. Rốt cuộc, đây là một thế tiến thoái lưỡng nan của người tù, một khi có một nhà sản xuất không tuân thủ võ đức mở rộng sản xuất điên cuồng, toàn bộ ngành NAND sẽ gặp khó khăn trong việc mở rộng sản xuất dễ dàng hơn nhiều so với DRAM.

Nhưng ít nhất, vòng này của NAND cũng là một chu kỳ siêu tăng trưởng, nhu cầu từ một số động lực tăng trưởng cấu trúc theo cấp số nhân, việc trì hoãn chu kỳ đi xuống đến năm 2030 là không có vấn đề.

Liên kết gốc

Nhấp để tìm hiểu về các vị trí tuyển dụng của BlockBeats

Chào mừng tham gia cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram giao lưu: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận