Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Từ Elpida sụp đổ đến Micron trỗi dậy: Tái cấu trúc logic nền tảng của chip lưu trữ
Năm 2012, nhà sản xuất bộ nhớ DRAM hàng đầu toàn cầu Elpida chính thức tuyên bố phá sản.
Là một doanh nghiệp tiêu biểu của ngành bán dẫn Nhật Bản, Elpida đã hợp nhất công nghệ cốt lõi của ba tập đoàn khổng lồ NEC, Hitachi, Mitsubishi, dù có sự can thiệp của chính phủ Nhật Bản để cấp vốn bảo trợ, vẫn khó cứu vãn đà suy thoái. Sau khi gánh khoản nợ khổng lồ 4300 tỷ yên Nhật và nộp đơn xin bảo hộ phá sản, cuối cùng công ty bị Micron Technology của Mỹ mua lại với giá 2000 tỷ yên Nhật, sau khi hợp nhất và tiêu thụ, đã hoàn toàn rút khỏi sân khấu ngành.
Nhìn lại quá trình phát triển của ngành, Intel, Texas Instruments, Motorola đều từng tham gia vào lĩnh vực DRAM, sau đó lần lượt rút lui khỏi thị trường. Ngành công nghiệp bộ nhớ bán dẫn Nhật Bản, từ thời hoàng kim đến sụp đổ chỉ trong chưa đầy hai mươi năm. Sau đó, các doanh nghiệp Hàn Quốc tiếp bước nổi lên, Samsung, SK Hynix dựa vào trợ cấp của chính phủ, cùng với chiến tranh giá quyết liệt, quét sạch thị trường toàn cầu, đẩy các đối thủ cạnh tranh ra khỏi cuộc chơi.
Trong khi đó, Micron trở thành người sống sót cuối cùng, cũng là doanh nghiệp duy nhất tại Mỹ hiện nay có khả năng sản xuất hàng loạt các chip lưu trữ tiên tiến. Nhà máy đặt tại Boise, Idaho này đã âm thầm hoạt động dưới bóng dáng của các ngành công nghiệp Nvidia, TSMC, không tham gia thiết kế GPU cũng như không mở rộng sản xuất chip logic. Nhưng khi nhu cầu tính toán AI bùng nổ, một giới hạn vật lý đã tồn tại hàng chục năm ngày càng rõ nét: thời gian chờ đợi truyền dữ liệu của các đơn vị tính đã vượt quá thời gian tính toán. Điểm đau của ngành này không thể giải quyết bằng tối ưu phần mềm, chỉ còn cách đột phá công nghệ phần cứng, và đó chính là lĩnh vực mà Micron đã theo đuổi suốt bốn mươi năm qua.
Thách thức cốt lõi của tính toán AI: tường bộ nhớ trở thành vấn đề chung của ngành
Trong hệ thống kiến trúc von Neumann, các đơn vị tính GPU, TPU và bộ nhớ chính hoạt động độc lập về mặt mạch vật lý. Đơn vị tính tích hợp bộ nhớ SRAM nhỏ làm bộ đệm nội bộ, trọng số của mô hình lớn và dữ liệu đầu vào chủ yếu được lưu trữ ngoài chip DRAM, dữ liệu cần truyền qua trung gian dưới dạng tín hiệu điện để chuyển vùng.
Lấy ví dụ một mô hình ngôn ngữ lớn 700 tỷ tham số, với độ chính xác FP16, chỉ riêng trọng số của mô hình đã chiếm khoảng 140GB bộ nhớ vật lý. Các card AI cao cấp hiện nay thường có dung lượng VRAM từ 80GB đến 192GB, mô hình lớn hơn chỉ có thể chia nhỏ để chạy song song trên nhiều card. Trong 10 năm qua, sức mạnh tính toán của chip đã tăng theo cấp số nhân, nhưng băng thông bộ nhớ bị giới hạn bởi số chân vật lý, tần số tín hiệu, giới hạn tản nhiệt, tốc độ tăng trưởng chậm hơn nhiều so với sự tiến bộ của khả năng tính toán. Khi hiệu năng tính toán vượt quá khả năng cung cấp của bộ nhớ, đơn vị tính rơi vào trạng thái chờ rỗng, hiệu suất phần cứng giảm mạnh.
AI gồm hai kịch bản chính: huấn luyện và suy luận, với logic nền tảng khác nhau rõ rệt. Trong giai đoạn huấn luyện, xử lý hàng loạt song song lớn, dữ liệu được gọi đi gọi lại trong bộ đệm của lõi tính, cường độ tính toán cao, điểm nghẽn chính tập trung vào tốc độ tính toán chứ không phải bộ nhớ, đây là kịch bản tính toán chuyên sâu, khả năng khai thác của Nvidia được phát huy tối đa.
Trong giai đoạn suy luận, logic hoàn toàn khác, các mô hình ngôn ngữ lớn dựa vào cơ chế tự hồi quy để sinh ra văn bản theo từng token. Để tránh tính toán lặp lại các điểm chú ý của quá khứ, hệ thống cần xây dựng bộ đệm KV Cache trong VRAM. Ví dụ với độ dài ngữ cảnh khoảng 4096, một yêu cầu của người dùng sẽ chiếm khoảng 1.34GB VRAM; hai card A100, sau khi trừ đi không gian dành cho trọng số mô hình, còn lại chỉ khoảng 20GB để chứa KV Cache, tối đa chỉ có thể xử lý 14 yêu cầu đồng thời. Trong suy luận, cường độ tính toán cực thấp, hiệu năng hoàn toàn bị giới hạn bởi băng thông bộ nhớ, thuộc loại nhiệm vụ truy cập bộ nhớ nhiều, tốc độ truyền của HBM quyết định trực tiếp khả năng xử lý của hệ thống.
Xét về tiêu thụ năng lượng, đọc dữ liệu từ HBM ngoài chip tiêu tốn khoảng 10–20 pJ/bit, trong khi một phép tính FP16 chỉ tiêu tốn 0.1 pJ, nên năng lượng vận chuyển dữ liệu lớn gấp 100 đến 200 lần năng lượng tính toán. Trong các kịch bản suy luận quy mô lớn, nếu không tối ưu hóa mô hình truy cập bộ nhớ, lượng điện năng tiêu thụ của trung tâm dữ liệu sẽ chủ yếu dành cho truyền dữ liệu qua bus, thay vì thực hiện các phép tính logic, điều này chính là động lực chính thúc đẩy Micron tiếp tục đầu tư vào công nghệ HBM.
Thực trạng tài chính của Micron và vị trí trong chuỗi cung ứng AI
Micron là nhà tích hợp IDM điển hình, tự nghiên cứu và sản xuất toàn bộ chuỗi từ thiết kế chip, sản xuất wafer, đóng gói, thử nghiệm. Nhà máy wafer tập trung vào lĩnh vực chip lưu trữ, không tham gia sản xuất CPU hay GPU, chuyên về phát triển và sản xuất các sản phẩm bộ nhớ và flash.
Về cơ cấu doanh thu, hơn 70% đến từ mảng DRAM, khoảng 20–30% từ NAND flash, phần NOR flash nhỏ hơn. Trong đó, DRAM là thành phần chủ đạo của bộ nhớ phổ thông, NAND là chất liệu chính của ổ cứng thể rắn, NOR thường dùng trong ô tô, thiết bị công nghiệp, đảm nhận chức năng khởi động và thực thi mã nhanh, dù thị trường nhỏ nhưng có tính không thể thay thế.
Về chiến lược kinh doanh, Micron chia thành bốn lĩnh vực chính: dịch vụ mạng tính toán cho trung tâm dữ liệu và máy chủ, thiết bị di động cho điện thoại thông minh, ổ cứng thể rắn cho doanh nghiệp, và lĩnh vực nhúng trong ô tô và công nghiệp.
Trong chuỗi cung ứng AI, Nvidia thiết kế GPU, TSMC đảm nhận gia công wafer, còn Micron dù không tham gia hai khâu này nhưng là nhà cung cấp linh kiện thiết yếu cho các card tăng tốc AI. Chỉ riêng chip logic GPU không đủ để vận hành các mô hình lớn, điểm nghẽn hiệu năng trong suy luận nằm ở băng thông bộ nhớ, do đó Nvidia cần tích hợp chặt chẽ HBM băng thông cao. Micron cùng SK Hynix, Samsung là các nhà cung cấp chính của HBM, sản phẩm qua đóng gói CoWoS của TSMC, tích hợp cùng GPU thành các module tính toán AI hoàn chỉnh. GPU như bộ não của khả năng tính toán AI, còn HBM là kênh truyền dữ liệu tốc độ cao, hai thành phần không thể thiếu nhau.
Về chiến lược cạnh tranh, Nvidia dựa vào kiến trúc và hệ sinh thái để xây dựng lợi thế cạnh tranh, còn Micron dựa vào quy trình công nghệ và kỹ thuật đóng gói để liên tục đổi mới, tạo ra hàng rào ngành. Mỗi lần nâng cấp băng thông HBM đều dựa trên công nghệ TSV tinh vi hơn và số lớp xếp chồng cao hơn, yêu cầu kỹ thuật rất cao.
DRAM: Hạ tầng nền tảng phía sau sức mạnh tính toán AI
Trong kiến trúc máy tính truyền thống, DRAM là bộ nhớ chính, phù hợp hoàn hảo với điểm yếu của các ổ cứng dung lượng lớn chậm, và CPU tốc độ cao, bộ đệm nhỏ. Khi chạy chương trình, hệ thống tải dữ liệu từ ổ cứng vào DRAM, CPU thực hiện đọc ghi dữ liệu với độ trễ nanosecond và băng thông cực cao, kernel hệ thống và các tiến trình nền luôn cư trú trong đó. DRAM có đặc tính mất dữ liệu khi mất điện, do tụ điện bên trong bị rò rỉ tự nhiên, cần liên tục làm mới để duy trì dữ liệu, thành phần cơ bản gồm một transistor và một tụ điện.
Trong kỷ nguyên AI, hình thái và yêu cầu của DRAM hoàn toàn được tái cấu trúc. Đơn vị tính chuyển từ CPU sang GPU, DRAM không còn chỉ là DDR trên bo mạch chủ nữa mà chuyển sang dạng bộ nhớ băng thông cao HBM, sử dụng công nghệ TSV để xếp chồng theo chiều dọc, tích hợp cùng GPU trong lớp trung gian silicon.
Hiện tại, giá trị cốt lõi của DRAM tập trung vào hai khía cạnh: một là tải trọng trọng số của các mô hình lớn, ví dụ mô hình 700 tỷ tham số, định dạng FP16 cần 140GB để lưu trữ, phải tải toàn bộ vào HBM trước khi suy luận; hai là bộ đệm KV Cache động, mô hình sinh văn bản cần lưu trữ lịch sử ngữ cảnh, độ dài ngữ cảnh càng lớn, yêu cầu bộ nhớ càng cao, khả năng xử lý đồng thời của một máy chủ cao cấp bị hạn chế. Trong huấn luyện, tiêu thụ bộ nhớ còn lớn hơn nhiều, ngoài tham số mô hình còn cần lưu trữ nhiều kết quả trung gian, cộng thêm dữ liệu của bộ tối ưu, tổng yêu cầu bộ nhớ có thể gấp 3–4 lần so với suy luận.
Do tường bộ nhớ, tốc độ tăng của sức mạnh GPU vượt xa tốc độ nâng cấp băng thông bộ nhớ, trong giai đoạn suy luận, GPU thường xuyên rơi vào trạng thái rảnh rỗi, việc nâng cấp băng thông HBM quyết định giới hạn khả năng xử lý của máy chủ AI, chính là lý do Micron đẩy mạnh nghiên cứu HBM.
Cục diện ba ông lớn trong ngành: Samsung, SK Hynix, Micron và sự khác biệt trong cạnh tranh
Thị trường DRAM toàn cầu hiện do ba ông lớn Samsung, SK Hynix, Micron chi phối, chiếm khoảng 95% thị phần, mỗi công ty có lợi thế cốt lõi riêng.
Về tiến trình công nghệ, Micron dẫn đầu ngành, từ 1-alpha, 1-beta đến 1-gamma, luôn là người đầu tiên sản xuất hàng loạt DRAM dung lượng cao thế hệ mới, số lượng chip trên wafer cao hơn, chi phí sản xuất trên bit thấp hơn, lợi nhuận gộp vượt trội. Samsung gặp khó trong quy trình dưới 14nm, tốc độ cải tiến chậm lại; SK Hynix theo kịp cùng nhóm.
Trong lĩnh vực HBM, thế cục hoàn toàn khác biệt, SK Hynix giữ vị trí dẫn đầu, chiếm hơn 50% thị phần, là nhà cung cấp độc quyền cho các GPU cao cấp của Nvidia, dựa vào công nghệ đóng gói MR-MUF, có lợi thế tuyệt đối về phân lớp xếp chồng và kiểm soát nhiệt độ, tỷ lệ thành công cao. Micron, với tư cách là người mới vào, đã bỏ qua HBM3 để tập trung vào HBM3E, dựa trên lợi thế tiết kiệm năng lượng để gia nhập chuỗi cung ứng của Nvidia, sử dụng công nghệ đóng gói TC-NCF, độ khó gia công cao, công suất và thị phần chưa bằng SK Hynix. Samsung trong các giai đoạn HBM3, HBM3E do vấn đề nhiệt và tiêu thụ năng lượng chưa thể vượt qua thử nghiệm của Nvidia, bỏ lỡ cơ hội hưởng lợi từ thị trường bộ nhớ AI, hiện đang đặt cược vào HBM4 để tìm cách vượt lên.
Hiệu quả năng lượng trở thành điểm đột phá khác biệt của Micron, cùng băng thông, HBM của Micron tiêu thụ ít hơn đối thủ 20–30%, dù chênh lệch nhỏ, nhưng khi triển khai hàng chục nghìn card trong trung tâm dữ liệu, có thể giảm đáng kể chi phí điện và tản nhiệt. Đồng thời, quy trình 1-gamma của họ đạt tốc độ 9.6Gbps, giảm tiêu thụ năng lượng 30%, phù hợp hoàn hảo với nhu cầu duy trì mô hình AI cục bộ trên thiết bị di động.
Về quy mô sản xuất, Samsung giữ vị trí số một nhờ quy mô lớn, dựa vào chiến tranh giá để kiểm soát thị trường; Micron có quy mô nhỏ nhất, tránh cạnh tranh giá đồng đều, tập trung vào giá trị công nghệ, dựa trên quy trình và hiệu quả năng lượng để giữ vững vị thế.
Ngoài DRAM và HBM, NAND và NOR flash là các dòng sản phẩm tăng trưởng thứ hai của Micron. Thị trường NAND chiếm vị trí thứ tư hoặc thứ năm toàn cầu, giữ khoảng 10–15% thị phần; trong khi đó, NOR flash bỏ qua thị trường tiêu dùng thấp cấp, tập trung vào ô tô, công nghiệp cao cấp, dẫn đầu tiêu chuẩn giao diện tốc độ cao Octal xSPI, đạt chứng nhận an toàn cao nhất ASIL-D, cung cấp lâu dài hơn 10 năm qua nhà máy tự sở hữu, phục vụ khách hàng ô tô và công nghiệp, tránh cuộc chiến giá rẻ, dựa vào độ tin cậy và hiệu suất để kiếm lợi nhuận cao.
Định giá của Micron và so sánh với các đối thủ
Hiện tại, giá cổ phiếu Micron khoảng 600 USD, PE khoảng 21.44 lần, vốn hóa khoảng 650 tỷ USD. Các ngân hàng đầu tư của Wall Street dự đoán mục tiêu giá 12 tháng trong khoảng 400–675 USD, trung bình gần 500 USD, định giá chung ở mức thấp hơn thực tế.
Trong quá khứ, các chip lưu trữ là ngành chu kỳ mạnh, sức hút của ngành thúc đẩy mở rộng công suất, dẫn đến dư thừa năng lực và giảm giá, thường chỉ được định giá PE 8–10 lần. Hiện tại, định giá của Micron đã tăng mạnh, chủ yếu do cấu trúc doanh thu của HBM: bộ nhớ DDR truyền thống bị ảnh hưởng lớn bởi cung cầu thị trường, còn HBM theo mô hình sản xuất theo hợp đồng, đã ký các hợp đồng cung cấp dài hạn không thể hủy bỏ với các khách hàng lớn như Nvidia, đến năm 2026, toàn bộ công suất HBM đã bán hết, doanh thu chuyển từ chu kỳ sang hợp đồng ổn định, thị trường coi họ như nhà cung cấp hạ tầng AI, và định giá theo đó cũng tăng lên.
Thêm vào đó, chính sách và dòng vốn hỗ trợ, Micron là doanh nghiệp duy nhất của Mỹ sản xuất bộ nhớ tiên tiến, hưởng lợi từ Đạo luật Chíp và xu hướng nội địa hóa chuỗi cung ứng, dòng vốn tổ chức liên tục đổ vào, mang lại giá trị kỳ vọng về thanh khoản.
Xét theo các đối thủ, SK Hynix PE chỉ khoảng 12.17 lần, dù chiếm hơn 50% thị phần HBM và liên kết chuỗi cung ứng cao cấp của Nvidia, nhưng bị ảnh hưởng bởi cấu trúc sở hữu của các tập đoàn Hàn Quốc, cổ tức và mua lại cổ phiếu thấp; cộng thêm gần 40% công suất DRAM thông thường của họ đặt tại nhà máy Wuxi, Trung Quốc, bị hạn chế xuất khẩu thiết bị nước ngoài, không thể nâng cấp công nghệ mới, có nguy cơ chuyển đổi công năng và mất giá tài sản, khiến định giá bị áp lực liên tục.
Samsung PE đạt 34.18 lần, không phải do định giá cao, mà do lợi nhuận ròng giảm mạnh. Samsung hoạt động đa ngành, gồm lưu trữ, gia công wafer, điện thoại thông minh, màn hình, v.v., các hoạt động gia công theo kịp công nghệ cao nhưng tỷ lệ lợi nhuận thấp, liên tục thua lỗ kéo giảm lợi nhuận ròng của tập đoàn, giá cổ phiếu ổn định nhờ dòng tiền nội địa hỗ trợ, đẩy PE lên cao.
Các tổ chức đầu tư lạc quan về Micron dựa trên các lý do chính: doanh thu từ HBM tăng, kéo lợi nhuận gộp đi lên; hợp đồng cung cấp dài hạn đảm bảo doanh thu; quy mô sản xuất HBM tăng, đẩy giá các dòng DRAM thông thường lên; sau khi quy trình 1-gamma đi vào sản xuất hàng loạt, bắt đầu giai đoạn hoàn vốn đầu tư, dòng tiền tự do liên tục cải thiện. Tuy nhiên, cần lưu ý rằng chu kỳ ngành lưu trữ chưa hoàn toàn chấm dứt, chỉ được làm mượt bởi các hợp đồng dài hạn của HBM; nếu đầu tư hạ tầng AI chậm lại, hoặc HBM4 của Samsung vượt trội về công nghệ, thì cấu trúc cung cầu ngành có thể sẽ thay đổi lại.
Tiêu chuẩn đánh giá cốt lõi của HBM và công nghệ kết nối thế hệ tiếp theo CXL
Các nhà sản xuất đều nhấn mạnh lợi thế của sản phẩm HBM của mình, và tiêu chí đánh giá chất lượng HBM chính dựa trên ba tham số then chốt:
Thứ nhất là tốc độ chân, quyết định băng thông truyền dữ liệu. HBM dựa vào các chân micro bump kết nối với GPU, tốc độ chân thể hiện lượng dữ liệu truyền mỗi giây qua một kênh đơn, tiêu chuẩn chung của ngành là tổng số chân cố định 1024, băng thông tổng theo công thức quy đổi cố định. Micron HBM3E có tốc độ 9.2Gbps, băng thông mỗi stack khoảng 1.2TB/s, vượt xa mức trung bình của các đối thủ 8.0–8.5Gbps. Tuy nhiên, tăng tốc độ đi kèm với nguy cơ tiêu thụ năng lượng cao hơn và rủi ro nhiễu tín hiệu, điện áp thay đổi liên tục sinh nhiệt, tốc độ quá cao dễ gây nhiễu tín hiệu, ảnh hưởng đến độ ổn định truyền dữ liệu.
Thứ hai là chỉ số hiệu quả năng lượng, tính theo pJ/bit, giá trị càng thấp càng tốt. HBM được đóng gói chung với GPU, tiêu thụ năng lượng cao sẽ làm tăng áp lực tản nhiệt, buộc GPU phải giảm xung nhịp, giảm hiệu suất. Micron dựa trên công nghệ 1-beta thiết kế điện áp thấp, hiệu quả năng lượng cao hơn đối thủ khoảng 30%, giảm đáng kể chi phí điện và tản nhiệt của trung tâm dữ liệu.
Thứ ba là trở nhiệt và công nghệ đóng gói, cũng là lợi thế cạnh tranh cốt lõi của SK Hynix. Nhiệt độ tăng do tiêu thụ năng lượng và trở nhiệt quyết định, cấu trúc xếp chồng nhiều lớp của HBM làm khó truyền nhiệt, vật liệu lấp đầy giữa các lớp ảnh hưởng lớn đến trở nhiệt. Ngành dùng hai công nghệ chính là TC-NCF và MR-MUF, Micron và Samsung dùng TC-NCF, dễ để lại khí bẩn, trở nhiệt cao; SK Hynix dùng công nghệ MR-MUF, dùng chất lỏng để điền vào khe hở, không khí bẩn ít, trở nhiệt thấp hơn.
Trở nhiệt cao sẽ gây ra phản ứng dây chuyền: môi trường nhiệt độ cao làm tăng rò rỉ điện của tụ điện DRAM, buộc bộ điều khiển bộ nhớ phải làm mới dữ liệu thường xuyên, giảm băng thông hiệu quả; đồng thời, công nghệ đóng gói quyết định giới hạn số lớp xếp chồng, càng nhiều lớp thì độ ứng suất cơ học và sự phù hợp nhiệt độ càng khó kiểm soát, tỷ lệ lỗi tăng theo cấp số nhân.
Khi phân tích tài liệu công nghệ của các nhà sản xuất HBM, chỉ cần tập trung vào ba điểm: điện áp thử nghiệm của tốc độ danh nghĩa, số lớp xếp chồng và dung lượng mỗi chip, khách hàng cuối cùng kiểm tra thực tế mới là thước đo cuối cùng về năng lực công nghệ.
CXL: Chiến trường tiếp theo của bộ nhớ trong cụm AI
HBM giải quyết giới hạn băng thông nội bộ của GPU đơn, khi mở rộng thành cụm GPU hàng nghìn chiếc, việc phân bổ bộ nhớ không hiệu quả, bộ đệm liên thiết bị không đồng nhất trở thành điểm đau mới, công nghệ CXL ra đời.
Trong trung tâm dữ liệu truyền thống, bộ nhớ vật lý gắn cố định với một máy chủ, không thể chia sẻ giữa các thiết bị, dẫn đến tình trạng một số node KV Cache đầy, một số node bộ nhớ rảnh rỗi, gây lãng phí vốn lớn, tỷ lệ bỏ qua (搁浅) cao tới 20–30%. Đồng thời, dữ liệu cache của CPU và GPU không đồng bộ, phương pháp đồng bộ phần mềm truyền thống chậm, hiệu suất giảm, cần lập trình thủ công, độ tin cậy thấp.
Nguyên nhân chính là do giới hạn của giao thức PCIe, chỉ phù hợp với việc truyền dữ liệu lớn, không có cơ chế đồng bộ cache. Giao thức CXL dựa trên việc tái cấu trúc logic của PCIe, tối ưu hóa ý nghĩa bộ nhớ và tính nhất quán của cache, dựa vào phần cứng để tự động duy trì trạng thái cache, đồng bộ dữ liệu trong vòng vài nanosecond mà không cần can thiệp hệ thống hay mã lệnh; định dạng truyền FLIT cố định, đơn giản hóa quá trình phân tích dữ liệu, độ trễ truy cập bộ nhớ từ xa giảm mạnh xuống còn 170–250 nanosecond.
Ngoài ra, CXL còn có thể xây dựng pool bộ nhớ chia sẻ qua switch, thoát khỏi giới hạn gắn cố định với một máy chủ, điều phối linh hoạt bộ nhớ rảnh trong vài micro giây, hoàn toàn giải quyết vấn đề bộ nhớ bị bỏ rơi.
Micron đã giới thiệu module mở rộng bộ nhớ CXL Type 3, dựa trên công nghệ DDR5 tự nghiên cứu, kết hợp với HBM để tạo thành bộ đôi cao thấp: HBM tập trung vào băng thông cực cao, độ trễ thấp cho từng card; CXL hướng tới mở rộng bộ nhớ lớn theo từng nút, hỗ trợ pool tài nguyên hàng TB. Trong thực tế, dữ liệu nóng sẽ được giữ trong HBM cục bộ, dữ liệu lạnh của ngữ cảnh dài sẽ được tải xuống pool bộ nhớ CXL, qua cơ chế prefetch để che lấp độ trễ truyền, giúp mô hình ngữ cảnh siêu dài hàng triệu token có thể thực thi.
Về cục diện ngành, cạnh tranh HBM ngày càng gay gắt, còn CXL vẫn trong giai đoạn phát triển sơ khai, chưa rõ ràng. Micron, với tư cách nhà sản xuất lưu trữ thuần túy, không mang gánh nặng lịch sử, module CXL dùng công nghệ DDR5 tiêu chuẩn, không cần đóng gói phức tạp, tỷ lệ thành công và công suất dễ kiểm soát, có khả năng chiếm lợi thế tiên phong.
Kinh tế nền tảng ngành và các giới hạn công nghệ tiên tiến
Chi phí xây dựng nhà máy DRAM cao tới 150–200 tỷ USD, một chiếc máy EUV đắt hơn 200 triệu USD, cộng thêm hệ thống cung cấp điện, làm mát, thiết bị phải khấu hao trong vòng 5 năm, mỗi ngày phải phân bổ chi phí khổng lồ, yêu cầu tỷ lệ sử dụng thiết bị trên 95% để giảm giá thành. Khi nhu cầu giảm, các nhà sản xuất khó giảm sản lượng, chỉ còn cách duy trì áp lực, phát động chiến tranh giá, chính là nguyên nhân căn bản của chu kỳ mạnh của ngành lưu trữ.
Chi phí cao của HBM cũng bắt nguồn từ giới hạn vật lý, các lớp DRAM rời rạc xếp chồng theo chiều dọc, mỗi lớp lỗi sẽ làm toàn bộ module bị loại bỏ, tỷ lệ thành công của quá trình xếp chồng tăng theo cấp số nhân. Ngay cả khi tỷ lệ thành công của wafer rời rạc đạt 95%, liên kết giữa các lớp đạt 99%, thì tổng tỷ lệ thành công của HBM3E 8 lớp chỉ khoảng 61%, của HBM4 12 lớp còn chưa tới 50%. Quá trình đóng gói bằng công nghệ lỏng của SK Hynix và tỷ lệ thành công của Micron đều nhằm nâng cao tỷ lệ thành công tổng thể, giảm chi phí đơn vị, nhưng việc nâng cao tỷ lệ thành công và mở rộng công suất không thể làm trong ngày một ngày hai, khiến giá HBM trong ngắn hạn khó giảm mạnh.
Công nghệ PIM tính toán nội bộ trong bộ nhớ đã đề xuất hai mươi năm nhưng chưa thương mại hóa quy mô lớn, nguyên nhân chính là mâu thuẫn trong công nghệ vật lý. Transistor của DRAM cần điện áp thấp, điện áp ngưỡng cao để đảm bảo lưu trữ điện tích, tốc độ chuyển mạch chậm; trong khi chip logic của CPU, GPU yêu cầu điện áp thấp, tần số cao, dòng rò cao, hai yêu cầu này mâu thuẫn tự nhiên. Nếu cố gắng tích hợp đơn vị tính trong DRAM, khả năng tính toán sẽ tụt hậu đáng kể so với GPU, đồng thời nhiệt sinh ra từ tính toán sẽ làm tăng rò rỉ điện của tụ điện, ảnh hưởng đến độ tin cậy dữ liệu.
Trong ngành, con đường trung dung hiện nay là tích hợp các đơn vị AI nhẹ trong lớp nền của HBM, sử dụng công nghệ logic tiên tiến của TSMC để tránh các giới hạn của công nghệ DRAM, nhưng vẫn còn khoảng cách lớn để đạt tới tích hợp lưu trữ và tính toán thực sự.
Trong dài hạn, chiến lược cạnh tranh cốt lõi của Micron rõ ràng: dựa vào quy trình 1-gamma để giảm chi phí trên mỗi bit, dựa vào lợi nhuận cao của HBM để giữ vững quyền định giá, và duy trì cung cấp dài hạn qua các hợp đồng dài hạn để làm mượt chu kỳ ngành. Tuy nhiên, ngành vẫn đối mặt với các giới hạn cấu trúc, khi công nghệ phóng to mạch phẳng của DRAM gần đến giới hạn vật lý, tỷ lệ thất thoát của xếp chồng 3D tăng theo số lớp, và không có lối thoát thương mại trong ngắn hạn cho tích hợp lưu trữ-tính toán. Trong tương lai, cạnh tranh ngành sẽ không còn dựa vào các công nghệ chủ đạo đơn lẻ nữa, mà sẽ dựa vào năng lực tổng hợp về tỷ lệ thành công, công nghệ đóng gói, hệ thống tích hợp – chính là các rào cản sâu mà các tập đoàn lưu trữ lớn đã tích lũy qua hàng chục năm.
Dự đoán ngành công nghiệp chip cho thấy, chu kỳ đổi mới luôn rơi vào vòng lặp: thiếu khả năng tính toán mở rộng diện tích chip, hạn chế tỷ lệ thành công; chuyển sang kiến trúc liên kết, lại gặp vấn đề độ trễ truyền dữ liệu; xếp chồng chip để giải quyết liên kết, lại phát sinh vấn đề tản nhiệt, làm giảm tỷ lệ thành công. Căn bản, cạnh tranh cuối cùng của ngành chip sẽ trở lại vật liệu, và các hướng đột phá như liên kết quang học, vật liệu bán dẫn hai chiều, kiến trúc tính toán đột phá có thể trở thành các hướng chính để phá vỡ giới hạn vật lý hiện tại.